ICASSP 2026 - 歌唱语音转录

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Musicdetr: A Position-Aware Spectral Note Detection Model fo8.5分前10%

📋 论文详情

🥇 Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription

🔥 8.5/10 | 前10% | #歌唱语音转录 | #对象检测 | #音乐信息检索 #注意力机制

👥 作者与机构

  • 第一作者:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)
  • 通讯作者:Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)
  • 作者列表:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Qikai He(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Zhuoyuan Zhang(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wenqing Cheng(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)

💡 毒舌点评

亮点:首次将DETR引入歌声转录领域,并非简单套用,而是通过设计音符位置解码器、多目标单匹配策略和质量敏感损失函数三个针对性模块进行了深度改造,在多个基准上达到SOTA,证明了对象检测范式在AST中的有效性。 短板:论文计算复杂度(特别是引入额外解码器层)未作分析,在音符密集或快速演唱等复杂场景下的鲁棒性有待进一步验证;此外,部分训练细节(如具体优化器参数)的缺失略微影响了技术方案的完整透明度。

📌 核心摘要

  1. 问题:自动歌声转录(AST)旨在从歌声音频中推断音符的起始、结束时间和音高。传统方法或简单的帧级预测模型在准确性和端到端能力上仍有提升空间。

  2. 方法核心:本文提出了MusicDETR,一个基于Transformer的端到端AST模型。它将转录问题转化为频谱图上的音符对象检测问题,并首次在AST领域引入DETR框架。其核心创新在于设计了利用音符间位置关系的音符位置解码器、增加训练正样本的多目标单匹配(MTSM)策略以及对检测质量更敏感的质量敏感匹配损失(QML)。

  3. 创新点:a) 位置感知解码:通过量化音符在频谱图中的位置相关性(MC值接近0.8),并在解码器自注意力中显式融入音符间的相对位置关系编码。b) 训练策略优化:采用MTSM策略,通过复制目标图像来增加每个训练批次中的正样本数量,缓解O2O匹配导致的样本稀缺问题。c) 损失函数设计:提出QML损失,同时对预测框的IoU和分类分数敏感,避免因匹配错误导致的重叠检测和漏检。

  4. 实验结果:在SSVD3.0、ISMIR2014和MIR-ST500三个数据集上进行了广泛实验。MusicDETR在最具挑战性的COnPOff指标上取得了最优结果。例如,在SSVD3.0测试集上,COnPOff F1分数达到93.65%;在ISMIR2014上达到74.83%,均优于现有SOTA模型(如Phoneme, MusicYOLO)。消融研究证明了三个提出模块的有效性。

    • 关键实验结果表格(转录F1分数对比):
    模型ISMIR2014 COnPOff F1 (%)SSVD3.0 COnPOff F1 (%)MIR-ST500 COnPOff F1 (%)
    TONY47.1067.3926.27
    FU&SU59.4057.7923.25
    Phoneme72.4485.5633.02
    MusicYOLO71.5682.9931.03
    MusicDETR (ours)74.8393.6535.24
    MusicDETR* (trained on MIR-ST500)69.7267.8560.88
  5. 实际意义:该工作推动了AST从帧级预测向更直接的音符对象检测范式发展,为音乐信息检索、音乐教育辅助、歌声编辑等应用提供了更精准的技术基础。

  6. 主要局限性:a) 模型结构比传统帧级模型更复杂,可能带来更高的计算开销。b) 论文未讨论模型在处理极度密集、快速或滑音等复杂演唱技巧时的表现。c) 部分关键的训练超参数(如学习率、优化器具体配置)未在论文中详细说明。