ICASSP 2026 - 歌唱语音转录 论文列表
ICASSP 2026 - 歌唱语音转录 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model fo 8.5分 前10% 📋 论文详情 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription 🔥 8.5/10 | 前10% | #歌唱语音转录 | #对象检测 | #音乐信息检索 #注意力机制 👥 作者与机构 第一作者:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 通讯作者:Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 作者列表:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Qikai He(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Zhuoyuan Zhang(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wenqing Cheng(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 💡 毒舌点评 亮点:首次将DETR引入歌声转录领域,并非简单套用,而是通过设计音符位置解码器、多目标单匹配策略和质量敏感损失函数三个针对性模块进行了深度改造,在多个基准上达到SOTA,证明了对象检测范式在AST中的有效性。 短板:论文计算复杂度(特别是引入额外解码器层)未作分析,在音符密集或快速演唱等复杂场景下的鲁棒性有待进一步验证;此外,部分训练细节(如具体优化器参数)的缺失略微影响了技术方案的完整透明度。 📌 核心摘要 问题:自动歌声转录(AST)旨在从歌声音频中推断音符的起始、结束时间和音高。传统方法或简单的帧级预测模型在准确性和端到端能力上仍有提升空间。 方法核心:本文提出了MusicDETR,一个基于Transformer的端到端AST模型。它将转录问题转化为频谱图上的音符对象检测问题,并首次在AST领域引入DETR框架。其核心创新在于设计了利用音符间位置关系的音符位置解码器、增加训练正样本的多目标单匹配(MTSM)策略以及对检测质量更敏感的质量敏感匹配损失(QML)。 ...