基准测试 | 语音/音乐/音频论文速递

Multimodal Unlearning Across Vision, Language, Video, and Audio: Survey of Methods, Datasets, and Benchmarks

📄 Multimodal Unlearning Across Vision, Language, Video, and Audio: Survey of Methods, Datasets, and Benchmarks 标签：#多模态模型 #基准测试 #数据集 6.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | 文档类型：综述 | 评分置信度：高 | #多模态模型 | #多模态模型 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Nobin Sarwar（University of Maryland, Baltimore County）通讯作者：未说明作者列表：Nobin Sarwar（University of Maryland, Baltimore County），Shubhashis Roy Dipta（University of Maryland, Baltimore County），Zheyuan Liu（University of Notre Dame），Vaidehi Patil（University of North Carolina at Chapel Hill） 💡 毒舌点评亮点在于提出了一个“系统导向”的统一分类法，将方法按“干预阶段”和“控制路径”组织，为跨模态比较提供了一个清晰稳定的脚手架，比算法导向的综述更贴近实际部署考量。短板是作为一篇标题涵盖“视频和音频”的综述，其对音频和视频模态的覆盖深度明显弱于视觉和语言，大量篇幅仍聚焦于图像-文本系统，对新兴的音频和视频遗忘方法梳理不够充分，有些“综述其名，视觉为主”。此外，虽提供了分类框架，但缺乏对不同类别方法在相同任务或基准上的性能对比分析或元分析洞察，降低了其指导具体技术选择的直接效用。 ...

MulTTiPop: A Multitrack Transcription Dataset for Pop Music

📄 MulTTiPop: A Multitrack Transcription Dataset for Pop Music 标签：#音乐转录 #基准测试 #音乐理解 #数据集 #音频理解 7.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.7/10 | 前25% | 文档类型：数据集与基准 | 评分置信度：高 | #音乐转录 | #基准测试 | #音乐理解 #数据集 | arxiv 👥 作者与机构第一作者：Nathan Pruyne（Carnegie Mellon University, Language Technologies Institute）通讯作者：未说明作者列表：Nathan Pruyne（Carnegie Mellon University, Language Technologies Institute）、Benjamin Stoler（未说明）、William Chen（未说明）、Chien-yu Huang（Carnegie Mellon University）、Shinji Watanabe（Carnegie Mellon University）、Chris Donahue（Carnegie Mellon University, Language Technologies Institute） 💡 毒舌点评论文精准地识别了缺乏商业流行音乐多轨转录评估基准这一痛点，并展示了构建该基准的工程野心。然而，作为一份旨在成为“黄金标准”的评估数据集，其核心弱点在于：1) 评估效用被严重限制，因为仅测试了两个模型，且它们均非针对该任务设计或训练；2) 核心产物（音频）因版权限制无法直接提供，迫使使用者依赖外部链接，极大削弱了数据集的可访问性和即刻可用性；3) 数据集本身规模很小（3.5小时），多样性虽被强调，但实际覆盖的“流行”子流派有限。这使得该工作的实际影响力远低于其宣称的意图。 ...

MulTTiPop: A Multitrack Transcription Dataset for Pop Music

📄 MulTTiPop: A Multitrack Transcription Dataset for Pop Music 标签：#音乐转录 #基准测试 #音乐理解 #数据集 6.6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.6/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #音乐转录 | #基准测试 | #音乐理解 #数据集 | arxiv 👥 作者与机构第一作者：Nathan Pruyne（卡内基梅隆大学）通讯作者：未说明作者列表：Nathan Pruyne（卡内基梅隆大学）、Benjamin Stoler（卡内基梅隆大学）、William Chen（卡内基梅隆大学）、Chien-yu Huang（卡内基梅隆大学）、Shinji Watanabe（卡内基梅隆大学）、Chris Donahue（卡内基梅隆大学） 💡 毒舌点评论文精准命中了自动音乐转录（AMT）领域对真实商业流行音乐进行多轨转录评测基准的空白，其构建的流程（元数据匹配+节拍对齐+人工筛选）严谨且可复用，为社区提供了首个专用基准。然而，最终仅49.1%的成功率揭示了当前跨源对齐技术的根本瓶颈，而3.5小时的规模和强烈的西方音乐偏见限制了其作为通用基准的广度，使其更像是一个高质量但受限的“探路石”。 📌 核心摘要本文旨在解决自动音乐转录（AMT）模型缺乏针对真实商业流行音乐进行多轨转录评测基准的问题。核心贡献是构建了MulTTiPop数据集，其流程包括：从Lakh MIDI数据集和TheoryTab数据集通过元数据匹配找到潜在对应的多轨MIDI和YouTube音频段；使用基于节拍的动态时间规整（DTW）对齐两者的时间轴；通过融合基线相似度、旋律匹配和YouTube时间戳等多种策略生成候选对齐锚点，最终由人工标注者选择正确的对齐。与已有数据集相比，MulTTiPop首次提供了针对真实商业流行音乐音频的多轨MIDI标注。实验评估显示，当前先进的AMT模型（MT3、YourMT3+）在此数据集上表现不佳，最佳模型的Onset F1仅为38%（精确制式）和37.87%（打击/和声制式），表明该任务存在巨大提升空间。该数据集的实际意义在于为AMT模型在复杂、真实的多轨音乐转录任务上提供了一个有挑战性的评测工具。其主要局限性在于构建成功率不高（49.1%）、数据集规模较小（3.5小时）且存在西方音乐偏见。 ...

MuScriptor: An Open Model for Multi-Instrument Music Transcription

📄 MuScriptor: An Open Model for Multi-Instrument Music Transcription 标签：#音乐转录 #预训练 #强化学习 #开源工具 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音乐转录 | #预训练 | #强化学习 #开源工具 | arxiv 👥 作者与机构第一作者：Simon Rouard（Meta）通讯作者：未说明作者列表：Simon Rouard（Meta）、Michael Krause（Meta）、Axel Roebel（Meta）、Carl-Johann Simon-Gabriel（Meta）、Alexandre Défossez（Meta） 💡 毒舌点评论文的实质贡献在于一个高度系统化、工程化的端到端转录系统，而非单一的算法突破。其亮点是“大力出奇迹”策略——通过构建海量（145万MIDI）的合成数据集和中等规模（17万条）的带标注真实数据集，结合多阶段训练范式，并在开源模型权重上做得非常彻底，为社区提供了强大的现成工具。短板同样明显：性能的提升严重依赖于未公开、难以复现的内部数据集（𝒟Real），使得其技术路线的可推广性存疑；在强化学习后训练阶段采用了未经严格理论验证的简化GRPO算法，训练稳定性成疑；且完全回避了计算成本（GPU时长、能耗）的披露与分析，这对于评估其“开源模型”的实际可用性至关重要。 📌 核心摘要本文旨在解决现有多乐器自动音乐转录（AMT）模型在复杂真实音乐混音中泛化能力差、实用性低的问题。方法核心是构建名为MuScriptor的解码器-仅Transformer模型，并通过一个包含预训练、微调和强化学习后训练的多阶段流程进行训练。预训练使用大规模动态合成的MIDI-音频对（𝒟Synth），微调使用大规模带标注的真实音乐音频（𝒟Real），后训练则在人工精选的高质量子集（𝒟RL）上使用类GRPO算法进行对齐。模型支持可选的乐器条件输入以增强可控性。主要贡献在于：发布了一个在多样化音乐风格上表现稳健的开源多乐器转录模型及其完整训练流程；系统研究了合成预训练的有效性与局限性；首次将GRPO算法应用于AMT的后训练优化；提供了乐器条件化推理功能。与MT3、YourMT3+等先前工作相比，本文重心从架构改进转向数据规模与质量。实验结果表明，完整的MuScriptor模型（1.3B参数）在自建测试集𝒟Test上全面超越基线YourMT3+（例如，Multi F1从21.9提升至48.2），并在多个未参与训练的公开基准数据集上取得显著提升（例如，Dagstuhl ChoirSet的Frame F1从51.0提升至80.7）。消融实验证实了合成预训练在真实数据稀缺时的巨大价值（如仅用1%真实数据时Offset F1从9.9提升至33.4）以及每个训练阶段的累积增益。本文的实际意义是为音乐信息检索社区提供了一个开箱即用的强大基线模型和工具。主要局限包括：其tokenization方案无法表示同乐器同音高的重叠音符；模型的高性能依赖于未公开的内部数据集（𝒟Real），外部复现困难；训练和推理的计算成本未披露；RL训练算法的简化（无KL惩罚和重要性采样裁剪）可能带来稳定性风险；缺乏主观听觉评估。 🔗 开源详情代码：https://github.com/muscriptor/muscriptor 模型权重：已开源（通过上述GitHub仓库发布）。数据集：未开源。 𝒟Synth：约145万个MIDI文件，来源包括公开（如Lakh MIDI）和商业数据，未提供下载链接。 𝒟Real：17万个真实音乐录音（约11，000小时）及对齐的音符标注，为内部数据集，未公开。 𝒟RL：从𝒟Real中筛选的300首高质量曲目。 𝒟Test：从𝒟Real中筛选的372首高质量曲目。 Demo：未提及。复现材料：提供了代码、模型权重和主要训练超参数，但缺少完整的训练检查点、用于数据构建的脚本/阈值、以及训练资源信息。 🏗️ 方法概述和架构本文构建了一个端到端的多乐器音乐转录系统，其核心是将音乐转录任务转化为序列到序列的语言建模问题。系统接收一个5秒单声道音频波形（16kHz）作为输入，输出一段代表该片段内所有乐器音符事件的离散token序列（类MIDI表示）。 ...

On the Role of Conversational Timing in Synthetic Training Data for ASR

📄 On the Role of Conversational Timing in Synthetic Training Data for ASR 标签：#语音识别 #说话人日志 #领域适应 #基准测试 6.6/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 0.7/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 6.6/10 | 前50% | 文档类型：方法研究 | 评分置信度：中 | #语音识别 | #领域适应 | #说话人日志 #基准测试 | arxiv 👥 作者与机构第一作者：Máté Gedeon（Budapest University of Technology and Economics, Dept. of Telecommunications and Artificial Intelligence；Speechtex Ltd.）通讯作者：Máté Gedeon（论文提供了联系邮箱 gedeonm@edu.bme.hu，可视为通讯作者）作者列表：Máté Gedeon（Budapest University of Technology and Economics, Dept. of Telecommunications and Artificial Intelligence；Speechtex Ltd.）、Péter Mihajlik（Budapest University of Technology and Economics, Dept. of Telecommunications and Artificial Intelligence） 💡 毒舌点评论文提出了一个不错的分析框架——将对话时序视为可控训练变量而非被动复现的语料库统计量——这一视角本身是有洞察力的。然而，从语料库派生的基线到最优配置之间仅0.19-0.32个百分点的cpWER提升，使得“overlap-gap trade-off”的发现更像是对ASR社区已有直觉（更多重叠暴露有利于ASR）的经验验证，而非真正的范式转变。更重要的是，仅用25个配置（10个LHS + 15个BO）在单一语言、单一ASR架构上得出的相关性结论，其统计支撑力令人怀疑，使得“分析框架”的价值更接近于一个精心设计的初步案例研究，而非普适性发现。 ...

PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction

📄 PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction 标签：#语音分离 #多任务学习 #数据集 #基准测试 #领域适应 8.8/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音分离 | #多任务学习 | #数据集 #基准测试 | arxiv 👥 作者与机构第一作者：Wanyi Ning (未说明机构) 通讯作者：未说明作者列表：Wanyi Ning (未说明机构), Wei Zhou (未说明机构), Yingpeng Li (未说明机构), Yinshang Guo (未说明机构), Haitao Qian (未说明机构), Yiming Cheng (未说明机构) 💡 毒舌点评论文在解决真实对话场景TSE训练的核心难题上思路清晰且务实，构建大规模真实数据集和提出多维代理损失的联合训练框架是有效且有工程价值的贡献。然而，作为一项方法研究，其实验设计存在显著缺陷：完全缺失对四个核心损失函数的消融研究，使得“联合优化”策略的有效性成谜；与强基线的对比仅限于排行榜，未在控制条件下进行公平比较。这削弱了其核心创新的说服力。 ...

语音/音乐/音频论文速递 2026-07-10

语音/音乐/音频论文速递 2026-07-10 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐转录 2篇 ██ #语音质量评估 2篇 ██ #多模态模型 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（19 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 A Quantized Native Runtime for On-Device Semantic Audio 8.4分前25% 系统技术报告 #音乐生成 🥈 MuScriptor: An Open Model for Multi-Instrument Music Tr 8.3分前25% 系统技术报告 #音乐转录 🥉 A Self-Supervised Approach for Minimal-Annotation Hydro 8.3分前25% 系统技术报告 #音频事件检测 4. COALA: Robust Contextualized Speech-augmented Language 8.2分前25% 方法研究 #语音识别 5. PS4: Proxy-Supervised Joint Training for Real Target Sp 8.0分前25% 系统技术报告 #语音分离 6. MulTTiPop: A Multitrack Transcription Dataset for Pop M 7.7分前25% 数据集与基准 #音乐转录 7. SHAP-Weighted Cross-Modal Expert Fusion for Emotion and 7.7分前25% 方法研究 #语音情感识别 8. When Synthetic Speech Is All You Have: Better Call GRPO 7.7分前25% 方法研究 #语音识别 9. Structural Bottlenecks on Frequency Representation in E 7.6分前25% 方法研究 #音频生成 10. A Reliability Assessment of LALM Audio Judges for Full- 7.1分前50% 系统技术报告 #语音质量评估 11. Inverse-designed meta processing units for multi-task n 6.9分前50% 系统技术报告 #音频理解 12. Multimodal Unlearning Across Vision, Language, Video, a 6.9分前50% 综述 #多模态模型 13. Best-of-\(N\) TTS Evaluation is Confounded by ASR Family 6.7分前50% 方法研究 #语音质量评估 14. Why Do You Say It Like That? A Phoneme-Level Framework 6.5分前50% 方法研究 #语音伪造检测 15. It Takes Few to TANGO: A Quantized Distributed Model fo 6.5分前50% 系统技术报告 #语音增强 16. On the Role of Conversational Timing in Synthetic Train 6.4分前50% 方法研究 #语音识别 17. Diarization-Guided Qwen-ASR Adaptation for Multilingual 5.7分前50% 系统技术报告 #语音识别 18. Multimodal Digital Biomarker for Asthma: Complementary 5.3分后50% 应用研究 #多模态模型 19. Vidu S1: A Real-Time Interactive Video Generation Model 5.2分后50% 系统技术报告 #音视频交互 📋 论文列表 🥇 A Quantized Native Runtime for On-Device Semantic Audio Generation 8.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

MADB: A Large-Scale Music Aesthetics Dataset with Professional and Multi-Dimensional Annotations

📄 MADB: A Large-Scale Music Aesthetics Dataset with Professional and Multi-Dimensional Annotations #音乐理解 #数据集 #基准测试 #对比学习 #多模态模型 8.1/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前25% | #音乐理解 | #对比学习 | #数据集 #基准测试 | arxiv 👥 作者与机构第一作者：Sirui Zhang（中央音乐学院、北京通用人工智能研究院）通讯作者：Duo Xu（天津音乐学院、北京通用人工智能研究院）、Xin Jin（北京电子科技学院、北京通用人工智能研究院）、Feng Yu（中央音乐学院、北京通用人工智能研究院）、Songchun Zhu（北京大学、北京通用人工智能研究院）作者列表：Sirui Zhang（中央音乐学院、北京通用人工智能研究院）、Tianle Wang（中央音乐学院、北京通用人工智能研究院）、Xinyi Tong（中央音乐学院、北京通用人工智能研究院）、Peiyang Yu（中央音乐学院、北京通用人工智能研究院）、Jishang Chen（中央音乐学院、北京通用人工智能研究院）、Liangke Zhao（中央音乐学院、北京通用人工智能研究院）、Haoxin Zhang（中央音乐学院、北京通用人工智能研究院）、Duo Xu（天津音乐学院、北京通用人工智能研究院）、Xin Jin（北京电子科技学院、北京通用人工智能研究院）、Feng Yu（中央音乐学院、北京通用人工智能研究院）、Songchun Zhu（北京大学、北京通用人工智能研究院） 💡 毒舌点评该工作为音乐美学评估贡献了目前最大规模、最细粒度的专业标注基准，多维度框架与多标注者设计很有诚意，显著超越了现有MusicEval/SongEval等数据集。然而，基准实验仅停在轻量回归和零样本LLM预测，缺乏精心设计的专用美学模型对比，且训练超参数几乎完全不公开，削弱了其作为“benchmark”的深度说服力。CLAP的语义适应增益微弱，暴露了当前音文对齐模型在捕捉细粒度美学信号上的根本性局限，而论文对此并未提出有效的解决方案。 ...

MMGenre: Benchmarking Singing Voice Synthesis across Multiple Musical Genres

📄 MMGenre: Benchmarking Singing Voice Synthesis across Multiple Musical Genres #基准测试 #领域适应 #数据集 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.2/0.5 | 工程 1/1.5 🔥 8.3/10 | 前25% | #基准测试 | #领域适应 | #数据集 | arxiv 👥 作者与机构第一作者：Wenhao Feng（AIM3 Lab, Renmin University of China）通讯作者：未明确说明（通讯邮箱为 wenhaofeng@ruc.edu.cn，推断为第一作者）作者列表：Wenhao Feng（Renmin University of China）、Yuxun Tang（Renmin University of China）、Jiatong Shi（Carnegie Mellon University）、Qin Jin（Renmin University of China） 💡 毒舌点评本文以“流派”为刀，一刀切开了歌唱合成领域长期自我麻醉的“风格多样性”幻觉——所有模型在非流行曲风上集体摆烂的雷达图堪称年度恐怖片。Suno 代孕产出的数据集虽有“合法避税”之巧妙，但用合成数据去诊断合成系统，到底是黑吃黑还是互相照镜子，仍要打个问号。Gemini 打分的“流派判官”角色虽与人类看似相关不低，但在 5 分制的狭窄空间里对“野嗓门”和“伪摇滚”的区别有多敏锐，恐怕连 Gemini 自己都说不清。 ...

Text-Independent Speaker Verification Using Discrete Audio Tokens

📄 Text-Independent Speaker Verification Using Discrete Audio Tokens #说话人验证 #知识蒸馏 #语音编码 #基准测试 5.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 5.2/10 | 后50% | #说话人验证 | #知识蒸馏 | #语音编码 #基准测试 | arxiv 👥 作者与机构第一作者：Zheng Liang（The Hong Kong Polytechnic University）通讯作者：未明确说明，推测为 Kong Aik Lee（The Hong Kong Polytechnic University）作者列表：Zheng Liang（The Hong Kong Polytechnic University）、Junjie Li（The Hong Kong Polytechnic University）、Kong Aik Lee（The Hong Kong Polytechnic University） 💡 毒舌点评这篇论文用一个标准的“蒸馏教你说话”范式，让离散token在说话人验证任务上勉强跟上了Fbank的步伐。诊断实验的思路尚可，但方法本质上是知识蒸馏在跨特征域的工程迁移，理论贡献聊胜于无。更糟糕的是，在对比基线严重不足、代码与模型完全缺失的情况下，文章依然试图得出“开创了有效范式”的结论，未免过于乐观。这更像是一份技术报告，而非一项经得起顶会拷问的扎实研究。 ...