论文速递 | 语音/音乐/音频论文速递

Multimodal Unlearning Across Vision, Language, Video, and Audio: Survey of Methods, Datasets, and Benchmarks

📄 Multimodal Unlearning Across Vision, Language, Video, and Audio: Survey of Methods, Datasets, and Benchmarks 标签：#多模态模型 #基准测试 #数据集 6.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | 文档类型：综述 | 评分置信度：高 | #多模态模型 | #多模态模型 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Nobin Sarwar（University of Maryland, Baltimore County）通讯作者：未说明作者列表：Nobin Sarwar（University of Maryland, Baltimore County），Shubhashis Roy Dipta（University of Maryland, Baltimore County），Zheyuan Liu（University of Notre Dame），Vaidehi Patil（University of North Carolina at Chapel Hill） 💡 毒舌点评亮点在于提出了一个“系统导向”的统一分类法，将方法按“干预阶段”和“控制路径”组织，为跨模态比较提供了一个清晰稳定的脚手架，比算法导向的综述更贴近实际部署考量。短板是作为一篇标题涵盖“视频和音频”的综述，其对音频和视频模态的覆盖深度明显弱于视觉和语言，大量篇幅仍聚焦于图像-文本系统，对新兴的音频和视频遗忘方法梳理不够充分，有些“综述其名，视觉为主”。此外，虽提供了分类框架，但缺乏对不同类别方法在相同任务或基准上的性能对比分析或元分析洞察，降低了其指导具体技术选择的直接效用。 ...

MulTTiPop: A Multitrack Transcription Dataset for Pop Music

📄 MulTTiPop: A Multitrack Transcription Dataset for Pop Music 标签：#音乐转录 #基准测试 #音乐理解 #数据集 #音频理解 7.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.7/10 | 前25% | 文档类型：数据集与基准 | 评分置信度：高 | #音乐转录 | #基准测试 | #音乐理解 #数据集 | arxiv 👥 作者与机构第一作者：Nathan Pruyne（Carnegie Mellon University, Language Technologies Institute）通讯作者：未说明作者列表：Nathan Pruyne（Carnegie Mellon University, Language Technologies Institute）、Benjamin Stoler（未说明）、William Chen（未说明）、Chien-yu Huang（Carnegie Mellon University）、Shinji Watanabe（Carnegie Mellon University）、Chris Donahue（Carnegie Mellon University, Language Technologies Institute） 💡 毒舌点评论文精准地识别了缺乏商业流行音乐多轨转录评估基准这一痛点，并展示了构建该基准的工程野心。然而，作为一份旨在成为“黄金标准”的评估数据集，其核心弱点在于：1) 评估效用被严重限制，因为仅测试了两个模型，且它们均非针对该任务设计或训练；2) 核心产物（音频）因版权限制无法直接提供，迫使使用者依赖外部链接，极大削弱了数据集的可访问性和即刻可用性；3) 数据集本身规模很小（3.5小时），多样性虽被强调，但实际覆盖的“流行”子流派有限。这使得该工作的实际影响力远低于其宣称的意图。 ...

MulTTiPop: A Multitrack Transcription Dataset for Pop Music

📄 MulTTiPop: A Multitrack Transcription Dataset for Pop Music 标签：#音乐转录 #基准测试 #音乐理解 #数据集 6.6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.6/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #音乐转录 | #基准测试 | #音乐理解 #数据集 | arxiv 👥 作者与机构第一作者：Nathan Pruyne（卡内基梅隆大学）通讯作者：未说明作者列表：Nathan Pruyne（卡内基梅隆大学）、Benjamin Stoler（卡内基梅隆大学）、William Chen（卡内基梅隆大学）、Chien-yu Huang（卡内基梅隆大学）、Shinji Watanabe（卡内基梅隆大学）、Chris Donahue（卡内基梅隆大学） 💡 毒舌点评论文精准命中了自动音乐转录（AMT）领域对真实商业流行音乐进行多轨转录评测基准的空白，其构建的流程（元数据匹配+节拍对齐+人工筛选）严谨且可复用，为社区提供了首个专用基准。然而，最终仅49.1%的成功率揭示了当前跨源对齐技术的根本瓶颈，而3.5小时的规模和强烈的西方音乐偏见限制了其作为通用基准的广度，使其更像是一个高质量但受限的“探路石”。 📌 核心摘要本文旨在解决自动音乐转录（AMT）模型缺乏针对真实商业流行音乐进行多轨转录评测基准的问题。核心贡献是构建了MulTTiPop数据集，其流程包括：从Lakh MIDI数据集和TheoryTab数据集通过元数据匹配找到潜在对应的多轨MIDI和YouTube音频段；使用基于节拍的动态时间规整（DTW）对齐两者的时间轴；通过融合基线相似度、旋律匹配和YouTube时间戳等多种策略生成候选对齐锚点，最终由人工标注者选择正确的对齐。与已有数据集相比，MulTTiPop首次提供了针对真实商业流行音乐音频的多轨MIDI标注。实验评估显示，当前先进的AMT模型（MT3、YourMT3+）在此数据集上表现不佳，最佳模型的Onset F1仅为38%（精确制式）和37.87%（打击/和声制式），表明该任务存在巨大提升空间。该数据集的实际意义在于为AMT模型在复杂、真实的多轨音乐转录任务上提供了一个有挑战性的评测工具。其主要局限性在于构建成功率不高（49.1%）、数据集规模较小（3.5小时）且存在西方音乐偏见。 ...

MuScriptor: An Open Model for Multi-Instrument Music Transcription

📄 MuScriptor: An Open Model for Multi-Instrument Music Transcription 标签：#音乐转录 #预训练 #强化学习 #开源工具 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音乐转录 | #预训练 | #强化学习 #开源工具 | arxiv 👥 作者与机构第一作者：Simon Rouard（Meta）通讯作者：未说明作者列表：Simon Rouard（Meta）、Michael Krause（Meta）、Axel Roebel（Meta）、Carl-Johann Simon-Gabriel（Meta）、Alexandre Défossez（Meta） 💡 毒舌点评论文的实质贡献在于一个高度系统化、工程化的端到端转录系统，而非单一的算法突破。其亮点是“大力出奇迹”策略——通过构建海量（145万MIDI）的合成数据集和中等规模（17万条）的带标注真实数据集，结合多阶段训练范式，并在开源模型权重上做得非常彻底，为社区提供了强大的现成工具。短板同样明显：性能的提升严重依赖于未公开、难以复现的内部数据集（𝒟Real），使得其技术路线的可推广性存疑；在强化学习后训练阶段采用了未经严格理论验证的简化GRPO算法，训练稳定性成疑；且完全回避了计算成本（GPU时长、能耗）的披露与分析，这对于评估其“开源模型”的实际可用性至关重要。 📌 核心摘要本文旨在解决现有多乐器自动音乐转录（AMT）模型在复杂真实音乐混音中泛化能力差、实用性低的问题。方法核心是构建名为MuScriptor的解码器-仅Transformer模型，并通过一个包含预训练、微调和强化学习后训练的多阶段流程进行训练。预训练使用大规模动态合成的MIDI-音频对（𝒟Synth），微调使用大规模带标注的真实音乐音频（𝒟Real），后训练则在人工精选的高质量子集（𝒟RL）上使用类GRPO算法进行对齐。模型支持可选的乐器条件输入以增强可控性。主要贡献在于：发布了一个在多样化音乐风格上表现稳健的开源多乐器转录模型及其完整训练流程；系统研究了合成预训练的有效性与局限性；首次将GRPO算法应用于AMT的后训练优化；提供了乐器条件化推理功能。与MT3、YourMT3+等先前工作相比，本文重心从架构改进转向数据规模与质量。实验结果表明，完整的MuScriptor模型（1.3B参数）在自建测试集𝒟Test上全面超越基线YourMT3+（例如，Multi F1从21.9提升至48.2），并在多个未参与训练的公开基准数据集上取得显著提升（例如，Dagstuhl ChoirSet的Frame F1从51.0提升至80.7）。消融实验证实了合成预训练在真实数据稀缺时的巨大价值（如仅用1%真实数据时Offset F1从9.9提升至33.4）以及每个训练阶段的累积增益。本文的实际意义是为音乐信息检索社区提供了一个开箱即用的强大基线模型和工具。主要局限包括：其tokenization方案无法表示同乐器同音高的重叠音符；模型的高性能依赖于未公开的内部数据集（𝒟Real），外部复现困难；训练和推理的计算成本未披露；RL训练算法的简化（无KL惩罚和重要性采样裁剪）可能带来稳定性风险；缺乏主观听觉评估。 🔗 开源详情代码：https://github.com/muscriptor/muscriptor 模型权重：已开源（通过上述GitHub仓库发布）。数据集：未开源。 𝒟Synth：约145万个MIDI文件，来源包括公开（如Lakh MIDI）和商业数据，未提供下载链接。 𝒟Real：17万个真实音乐录音（约11，000小时）及对齐的音符标注，为内部数据集，未公开。 𝒟RL：从𝒟Real中筛选的300首高质量曲目。 𝒟Test：从𝒟Real中筛选的372首高质量曲目。 Demo：未提及。复现材料：提供了代码、模型权重和主要训练超参数，但缺少完整的训练检查点、用于数据构建的脚本/阈值、以及训练资源信息。 🏗️ 方法概述和架构本文构建了一个端到端的多乐器音乐转录系统，其核心是将音乐转录任务转化为序列到序列的语言建模问题。系统接收一个5秒单声道音频波形（16kHz）作为输入，输出一段代表该片段内所有乐器音符事件的离散token序列（类MIDI表示）。 ...

MuScriptor: An Open Model for Multi-Instrument Music Transcription

📄 MuScriptor: An Open Model for Multi-Instrument Music Transcription 标签：#音乐转录 #自回归模型 #强化学习 #数据集 #开源工具 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.4/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | 文档类型：系统技术报告 | 评分置信度：高 | #音乐转录 | #自回归模型 | #强化学习 #数据集 | arxiv 👥 作者与机构第一作者：Simon Rouard（Meta/Fair和IRCAM联合机构，巴黎萨克雷大学）通讯作者：未说明作者列表：Simon Rouard（Meta/Fair和IRCAM，巴黎萨克雷大学）、Michael Krause（Meta/Fair）、Axel Roebel（IRCAM，巴黎萨克雷大学）、Carl-Johann Simon-Gabriel（Meta/Fair）、Alexandre Défossez（Meta/Fair） 💡 毒舌点评论文在工程整合与系统构建上堪称典范，通过“合成预训练+真实数据微调+强化学习后训练”的流水线，在多乐器音乐转录任务上取得了显著的SOTA性能提升并开源，实践价值极高。然而，该工作呈现出“重工程、轻机理”的特点：强化学习部分为简化实现而移除了关键的稳定机制（KL惩罚），其有效性和鲁棒性缺乏理论支撑；对“为何合成数据预训练有效”的分析停留在“数据量大”的表面，未能揭示音乐结构或音色学习的深层原因，显得“知其然不知其所以然”。此外，其核心评估依赖于自建测试集，尽管也进行了跨数据集评估，但对模型在更广泛、未经筛选的真实世界音频上的失败模式分析不足。 📌 核心摘要本文旨在解决现有自动音乐转录（AMT）方法在复杂、多乐器真实音乐录音上表现不佳、泛化能力弱的问题。核心贡献是提出并开源了MuScriptor模型，一个采用解码器-only Transformer架构的开源模型。其核心创新在于一个系统性的三阶段训练流程：首先在大规模合成数据（145万MIDI文件）上预训练，然后在大规模真实音乐录音（17万条，1.1万小时）上微调，最后使用少量高质量数据（300首）通过类GRPO的强化学习进行后训练。此外，模型引入了乐器存在性条件化机制，允许用户指定待转录的乐器以定制输出并提升跨片段一致性。实验表明，该流程在自建测试集（𝒟Test）上将多乐器F1分数（Multi F1）从基线YourMT3+的21.9大幅提升至48.2，并在多个未参与训练的公开基准数据集上（如Dagstuhl ChoirSet）显著超越现有方法。论文的主要局限包括：强化学习后训练的实现方式简化了标准GRPO，缺少KL散度惩罚，可能影响训练稳定性；对合成数据预训练为何有效的机理分析不足；tokenization方案不支持同一乐器同音高的重叠音符。 ...

On the Role of Conversational Timing in Synthetic Training Data for ASR

📄 On the Role of Conversational Timing in Synthetic Training Data for ASR 标签：#语音识别 #音频理解 #Transformer #模型评估 6.4/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #Transformer | #音频理解 #模型评估 | arxiv 👥 作者与机构第一作者：Máté Gedeon（布达佩斯理工大学电信与人工智能系，Speechtex Ltd.）通讯作者：Péter Mihajlik（布达佩斯理工大学电信与人工智能系）作者列表：Máté Gedeon（布达佩斯理工大学电信与人工智能系，Speechtex Ltd.）、Péter Mihajlik（布达佩斯理工大学电信与人工智能系） 💡 毒舌点评论文将数据生成从“模仿艺术”提升为一门“实验科学”，通过可参数化的时序分布来系统性地探查什么对ASR训练真正有用，视角新颖。但实验规模（仅25个点）和单一语言/模型配置（匈牙利语/英转匈）的验证，让其“分析框架”的普适性结论显得底气不足，更像是在为后续更大规模研究绘制了一张有趣但尚待验证的蓝图。优化得到的“最佳”配置开发集与评估集排序一致性不佳，使得贝叶斯优化在本次设置中的有效性存疑。 ...

On the Role of Conversational Timing in Synthetic Training Data for ASR

📄 On the Role of Conversational Timing in Synthetic Training Data for ASR 标签：#语音识别 #说话人日志 #领域适应 #基准测试 6.6/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 0.7/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 6.6/10 | 前50% | 文档类型：方法研究 | 评分置信度：中 | #语音识别 | #领域适应 | #说话人日志 #基准测试 | arxiv 👥 作者与机构第一作者：Máté Gedeon（Budapest University of Technology and Economics, Dept. of Telecommunications and Artificial Intelligence；Speechtex Ltd.）通讯作者：Máté Gedeon（论文提供了联系邮箱 gedeonm@edu.bme.hu，可视为通讯作者）作者列表：Máté Gedeon（Budapest University of Technology and Economics, Dept. of Telecommunications and Artificial Intelligence；Speechtex Ltd.）、Péter Mihajlik（Budapest University of Technology and Economics, Dept. of Telecommunications and Artificial Intelligence） 💡 毒舌点评论文提出了一个不错的分析框架——将对话时序视为可控训练变量而非被动复现的语料库统计量——这一视角本身是有洞察力的。然而，从语料库派生的基线到最优配置之间仅0.19-0.32个百分点的cpWER提升，使得“overlap-gap trade-off”的发现更像是对ASR社区已有直觉（更多重叠暴露有利于ASR）的经验验证，而非真正的范式转变。更重要的是，仅用25个配置（10个LHS + 15个BO）在单一语言、单一ASR架构上得出的相关性结论，其统计支撑力令人怀疑，使得“分析框架”的价值更接近于一个精心设计的初步案例研究，而非普适性发现。 ...

PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction

📄 PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction 标签：#语音分离 #多任务学习 #数据集 #自监督学习 #音频理解 8.0/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.1/0.5 | 工程 1.5/1.5 🔥 8.0/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #语音分离 | #多任务学习 | #数据集 #自监督学习 | arxiv 👥 作者与机构第一作者：Wanyi Ning（机构未在作者列表注明，但摘要脚注显示为1,2）通讯作者：未明确说明作者列表：Wanyi Ning（机构1,2）， Wei Zhou（机构1）， Yingpeng Li（机构1）， Yinshang Guo（机构3）， Haitao Qian（机构1）， Yiming Cheng（机构1） 💡 毒舌点评本文直击了目标说话人提取（TSE）模型在真实场景中“无干净语音可训”的核心痛点，通过构建首个大规模真实数据训练集REAL-PS4并提出多维度代理监督联合训练策略，在REAL-T挑战赛中取得了令人信服的第二名及多项最佳子指标。其方法论具备完整的工程链条和明确的实用价值。主要短板在于：实验部分对四个核心损失函数的有效性缺乏消融验证，使得其“联合优化”的贡献度停留在黑箱层面；关键的训练超参数（如损失权重、优化器）描述缺失，严重削弱了其可复现性；部分技术细节（如VAD损失的能量特征计算）描述模糊。 ...

PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction

📄 PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction 标签：#语音分离 #多任务学习 #数据集 #基准测试 #领域适应 8.8/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音分离 | #多任务学习 | #数据集 #基准测试 | arxiv 👥 作者与机构第一作者：Wanyi Ning (未说明机构) 通讯作者：未说明作者列表：Wanyi Ning (未说明机构), Wei Zhou (未说明机构), Yingpeng Li (未说明机构), Yinshang Guo (未说明机构), Haitao Qian (未说明机构), Yiming Cheng (未说明机构) 💡 毒舌点评论文在解决真实对话场景TSE训练的核心难题上思路清晰且务实，构建大规模真实数据集和提出多维代理损失的联合训练框架是有效且有工程价值的贡献。然而，作为一项方法研究，其实验设计存在显著缺陷：完全缺失对四个核心损失函数的消融研究，使得“联合优化”策略的有效性成谜；与强基线的对比仅限于排行榜，未在控制条件下进行公平比较。这削弱了其核心创新的说服力。 ...

SHAP-Weighted Cross-Modal Expert Fusion for Emotion and Sentiment Recognition: Evidence and Limits

📄 SHAP-Weighted Cross-Modal Expert Fusion for Emotion and Sentiment Recognition: Evidence and Limits 标签：#多模态模型 #模型集成 #可解释性 #语音情感识别 #音频理解 7.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.7/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音情感识别 | #模型集成 | #多模态模型 #可解释性 | arxiv 👥 作者与机构第一作者：Adis Alihodzic（波斯尼亚和黑塞哥维那萨拉热窝大学理学院数学与计算机科学系）通讯作者：未说明作者列表：Adis Alihodzic（波斯尼亚和黑塞哥维那萨拉热窝大学理学院数学与计算机科学系）、Selma Skopljakovic Hubljar（未说明） 💡 毒舌点评这篇论文诚实且聚焦，它没有声称提出了革命性的新架构，而是像一位严谨的实验员，对SHAP特征归因在专家融合中的关键作用进行了细致入微的拆解和验证。其核心贡献——揭示并形式化了不同SHAP归约方式（均值、中位数、求和）对融合性能的决定性影响——具有明确的方法论价值，为基于归因的门控系统设计提供了清晰指导。然而，论文的核心宣称“自适应融合”与实验结果存在根本矛盾：诊断分析表明，性能最优的sum-abs门控实际上并未实现丰富的逐样本路由，而是退化为了对三模态专家的固定主导。这使得该方法更像一个“基于归因的重要性评估与固定权重选择器”，其理论动机（样本级自适应）被实验结果所削弱，限制了其在动态场景下的应用潜力。 ...