论文速递 | 语音/音乐/音频论文速递

Assessing True Generalisability of Audio-Visual Speech Recognisers

📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构作者：Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构：1 Trinity College Dublin, Ireland；2 Imperial College London, UK 💡 毒舌点评这篇论文根本不是在发明一个“更好”的AVSR模型，而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文，却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”，但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法（构建严格分布匹配的MV2LRS3集），得出了一个令人尴尬的结论：我们引以为傲的AVSR模型，在离开精心维护的LRS3温室后，表现得一塌糊涂。多模态融合不仅没帮忙，反而成了拖累。最讽刺的是，论文名为“评估真实泛化能力”，但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头，用来审视自己工作的实际意义，而不是仅仅在LRS3刷榜。 ...

Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference

📄 Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference #音频生成 6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6/10 | 前50% | #音频生成 | #音频生成 | arxiv 👥 作者与机构第一作者：Jiahui Zhao；其他作者：Tianrui Wang, Chunyu Qiang, Cheng Gong, Xijuan Zeng, Feng Deng, Longbiao Wang。机构：天津大学（1），快手科技（2）。 💡 毒舌点评 “创新”稍显保守：把参考音频拆成音色和节奏分别处理，这想法不算石破天惊。说“首次”或“新颖”有点过了，更像是工程上把已知的两个编码器（BEATs和Style Conditioner）合理地拼了一下。真正的挑战和创新点（如果有的话）在于这种拆分在生成任务上到底比“整体条件”好了多少，以及是否真的在“控制”。实验“充分”但“不惊艳”：VGGSound数据集+MMAudio微调，标准操作。消融实验（表1）逻辑清晰，证明了各模块都有贡献。但和最SOTA的V2A方法比了吗？只和自家MMAudio的几个变体比，说服力打折。风格相似性提升显著（表2），但以牺牲多少生成多样性或引入多少伪影为代价？论文似乎回避了这个问题。开源“态度”存疑：给个匿名demo链接，代码权重都不给。想复现？自己搭MMAudio环境再“微调”800步？这对社区共享和技术复现非常不友好。作为预印本可以理解，但降低其短期实际影响力。局限性“轻描淡写”：作者自己提到了在人声上效果弱，归因于节奏编码器的训练偏差。但更根本的问题是：1）这种固定的“音色-节奏”二分法是否真的普适？2）“控制”的程度和边界在哪？能插值吗？能只改节奏不改音色吗？论文没有深入探讨。部分结论“过度外推”：从“在VGGSound上改善风格相似性”直接跳到“使模型可控”，有点跳跃。这更像是在特定设定下的风格模仿，距离真正的、可交互的“控制”还有距离。标题中的“Controlling”略显激进。 📌 核心摘要本文提出了AudioIM，一个用于视频到音频（V2A）生成、并能控制生成音频音色和节奏的属性感知框架。现有V2A方法通常将参考音频作为整体条件信号，难以实现对风格属性的细粒度控制。为此，AudioIM采用两项关键技术：1）掩码训练策略：在训练时部分遮蔽音频潜在表示，使模型学习在部分观测条件下进行流匹配推断，从而在推理时能利用提示音频的潜在特征提供细粒度风格信息。2）双风格编码器：使用基于BEATs的音色编码器和基于Style Conditioner的节奏编码器，分别从参考音频中提取音色和节奏特征，并通过全局和帧级条件注入生成骨干网络。在VGGSound数据集上的实验表明，AudioIM在保持语义对齐和时间同步性能的同时，显著提升了生成音频与参考音频的风格相似性（SS-MOS从基线3.22提升至4.06）。消融研究验证了各组件的有效性。论文指出该方法在非人声音效（特别是乐器声）上效果更显著，而对人声的风格控制较弱。 ...

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

📄 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement #音频生成 #语音合成 #音频质量评估 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.9/10 | 前10% | #音频生成 | #语音合成 | #音频质量评估 | arxiv 👥 作者与机构作者：Yifan Duan, Qixiang Xu, Hengtao Wu, Zhanxun Liu, Wenhao Guan, Junxi Liu, Ziyang Ma, Kelu Xu, Xie Chen 机构： ...

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

📄 Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models #语音合成 #强化学习 #参数高效微调 #多模态模型 9.2/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | #语音合成 | #强化学习 | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构作者：Zhixian Zhao, Shuiyuan Wang, Wenjie Tian, Jingbin Hu, Ziyu Zhang, Lei Xie 机构：Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China ...

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

📄 BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation #声源定位 #多任务学习 #语音增强 8.5/10 | 创新 8/2 | 严谨 7/1.5 | 实验 8/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 2/1.5 | 复现 8/0.5 | 工程 7/1.5 🔥 8.5/10 | 前25% | #声源定位 | #多任务学习 | #语音增强 | arxiv 👥 作者与机构作者：Hanyu Meng, Eliathamby Ambikairajah, Vidhyasaharan Sethu, Qiquan Zhang, Haizhou Li 机构：1 The University of New South Wales, Sydney, Australia; 2 Tongyi Speech Lab, Alibaba Group, Hangzhou, China; 3 School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China ...

Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition

📄 Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition #语音识别 #对比学习 #数据增强 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #对比学习 | #数据增强 | arxiv 👥 作者与机构作者：Tung X. Nguyen, Hieu Minh Truong, Giang-Son Nguyen, Nhu Vo, Wray Buntine, Dung D. Le 机构：VinUniversity (越南), University of Technology Sydney (澳大利亚), Monash University (澳大利亚) ...

DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast

📄 DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast #扩散模型 #对比学习 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.5/10 | 前25% | #扩散模型 | #对比学习 | arxiv 👥 作者与机构 Zhengkun Ge, Xiaoqian Liu, Haoran Zhang, Yuan Ge, Junxiang Zhang：School of Computer Science and Engineering, Northeastern University, Shenyang, China. Zhengtao Yu：Kunming University of Science and Technology. Jingbo Zhu, Tong Xiao：Northeastern University, Shenyang, China; NiuTrans Research, Shenyang, China. ...

dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构作者：Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。机构：dots团队，小红书公司（Xiaohongshu Inc.），上海交通大学X-LANCE实验室。 ...

Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development

📄 Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development #音乐生成 #生成模型 #扩散模型 4.2/10 | 创新 1.5/2 | 严谨 0.5/1.5 | 实验 0.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.2/1.5 📝 4.2/10 | 后50% | #音乐生成 | #生成模型 | #扩散模型 | arxiv 👥 作者与机构未提及 💡 毒舌点评这篇论文的核心想法，即“用熵来调节梯度权重”，本身并非石破天惊。它的全部价值在于一个“意外”的实验结果：在监督微调扩散模型做音乐时，这种理应提升稳定性的加权反而提升了多样性。这确实有点意思，但作者似乎被这个“意外”冲昏了头脑，忘记了科研的基本功。整篇论文就是一份实验备忘录，连个正式的实验报告都算不上。没有数学公式定义方法，没有量化指标评估结果，没有与任何基线对比，没有消融实验证明不是玄学。作者用“在线课程学习”来包装，但连课程的“学习曲线”都没画出来。对于一篇投稿论文来说，这种完成度几乎是不可接受的。它提出了一个可以深入研究的问题，但自身远未准备好回答这个问题。 📌 核心摘要本文针对监督扩散模型微调中置信度可能放大错误的传统观点，提出一种反直觉的解决方案。作者引入名为“Eisbach log-barrier”的无参数权重，该权重基于扩散变换器（DiT）输出空间能量分布的熵计算：高熵（高不确定性）抑制梯度，低熵（高确定性）保留梯度。将该权重应用于在MusicCaps数据集上对Stable Audio 3 Medium模型进行LoRA微调时，作者观察到与预期相反的现象：该方法不仅未导致模式崩溃，反而生成了主题发展更强、声学区分更清晰、纹理更多样的音乐。作者解释其机制在于，在监督扩散训练中梯度方向固定于真实数据，置信度仅缩放步长；时间维度熵的加权压平了平淡样本，保留了高对比度样本。这导致了一个纯粹从单次前向传播中涌现的、自指涉的在线数据课程。论文分析了噪声级别动态，并提出了可验证的预测。 ...

FIGMA: Towards FIne-Grained Music retrievAl

📄 FIGMA: Towards FIne-Grained Music retrievAl #对比学习 #多模态模型 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 | arxiv 👥 作者与机构作者：Nishit Anand, Ashish Seth, Sreyan Ghosh, Dinesh Manocha, Ramani Duraiswami 机构：University of Maryland, College Park, USA 链接：https://arxiv.org/abs/2606.06615 💡 毒舌点评这篇论文提出的问题“细粒度音乐检索”是实际存在的，动机清晰。然而，其核心方法“多视图对比学习”本质上是将两个已有的、简单的对比损失（全局损失+一个基于帧-词元最大相似度的帧级损失）线性相加，技术新颖性有限。最大的硬伤在于，其贡献的庞大FGMCaps数据集（380K样本）完全由自动工具和LLM生成，缺乏人工标注验证，这使得其“细粒度”的可靠性存疑，也让论文的实验结论打了折扣——模型可能只是学会了匹配LLM生成的“模板化描述”，而非真正理解音乐理论属性。此外，论文开源情况极差，代码、模型权重、数据集均未提供，这在顶会论文中是难以接受的，严重阻碍了可复现性和后续研究。实验上，在自建测试集（FGMCaps）上的巨大提升说服力有限，而在外部分 benchmark（MusicBench， FMACaps-Eval）上的提升虽然显著，但基线模型（特别是最强的音乐专用模型 CLAMP 3）在 A2T 任务上表现异常差，这可能暗示了基线评估或设置存在问题，削弱了对比的公平性。 ...