ICASSP 2026 - 歌唱语音转录 论文列表
ICASSP 2026 - 歌唱语音转录 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model fo 8.5分 前10% 📋 论文详情 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription 🔥 8.5/10 | 前10% | #歌唱语音转录 | #对象检测 | #音乐信息检索 #注意力机制 👥 作者与机构 第一作者:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 通讯作者:Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 作者列表:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Qikai He(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Zhuoyuan Zhang(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wenqing Cheng(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 💡 毒舌点评 亮点:首次将DETR引入歌声转录领域,并非简单套用,而是通过设计音符位置解码器、多目标单匹配策略和质量敏感损失函数三个针对性模块进行了深度改造,在多个基准上达到SOTA,证明了对象检测范式在AST中的有效性。 短板:论文计算复杂度(特别是引入额外解码器层)未作分析,在音符密集或快速演唱等复杂场景下的鲁棒性有待进一步验证;此外,部分训练细节(如具体优化器参数)的缺失略微影响了技术方案的完整透明度。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/ChenMengqiao/MusicDETR。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文扩展的SSVD3.0数据集公开可用,提供了下载链接 (https://github.com/hust-itec2/SSVD3.0)。MIR-ST500和ISMIR2014为公开数据集。 Demo:论文未提供在线演示链接。 复现材料:论文提供了代码仓库,但未详细列出训练配置文件、检查点或附录中的超参数设置。 引用的开源项目:论文未明确列出所有依赖的开源项目,但方法基于DETR框架,并使用了mir_eval库进行评估。 📌 核心摘要 ...