论文速递 | 语音/音乐/音频论文速递

How to Leverage Synthetic Speech for LLM-Based ASR Systems?

📄 How to Leverage Synthetic Speech for LLM-Based ASR Systems? #语音识别 #数据增强 #参数高效微调 8.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音识别 | #数据增强 | #参数高效微调 | arxiv 👥 作者与机构 Yanis Labrak1, Dairazalia Sanchez-Cortes1, Sergio Burdisso1, Séverin Baroudi2, Shashi Kumar1,3, Esaú Villatoro-Tello1, Srikanth Madikeri4, Manjunath K E5, Oldřich Plchot6, Kadri Hacioğlu5, Petr Motlicek1,6, Andreas Stolcke5 机构：1. Idiap Research Institute (推测), 2. 未知, 3. 未知, 4. 未知, 5. 未知, 6. 未知。（注：原文未明确列出所有作者对应机构，分析中不编造） ...

Improving Large-Scale Weakly Supervised ASR by Filtering and Selection

📄 Improving Large-Scale Weakly Supervised ASR by Filtering and Selection 8.4/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.4/10 | 前25% | arxiv 👥 作者与机构 Kohei Matsuura: NTT Corporation, Human Informatics Laboratories, Japan (email: kohei.matsuura@ntt.com) Masato Mimura: Kyoto University, Graduate School of Informatics, Japan 💡 毒舌点评这篇论文像一篇扎实的工程实验报告，而非机制创新的突破。作者诚实地展示了一个“数据清洗+数据筛选”的流程在弱监督ASR中的有效性，结论可靠且具有实用价值。然而，其创新性略显不足，本质上是将半监督学习中的常见技巧（CER过滤）和领域自适应中的标准做法（基于嵌入的相似性选择）组合应用于一个新场景（大规模弱监督预训练）。实验虽然全面，但深度有限：缺乏对过滤后数据分布变化的可视化分析，未探讨不同SSL模型选择对样本质量的影响，也未计算引入过滤和选择步骤后增加的计算开销。论文的亮点在于揭示了“质量-多样性”权衡，并将数据利用限定在同一数据集内，但整体贡献更偏向于验证而非发明。 📌 核心摘要本文针对利用大规模弱监督数据集训练端到端ASR模型时存在的标签噪声和领域泛化问题，提出了一种新颖的三阶段数据利用方法。该方法首先在全量噪声数据上预训练一个基于CTC的编码器模型；然后利用该模型转录数据并计算字符错误率（CER），过滤掉高CER的噪声样本，并在过滤后的数据上继续预训练；最后，为适应目标领域（如无目标域训练集），利用自监督学习模型提取的声学嵌入，从过滤后数据中选择与目标域最相似的样本进行微调。在90,000小时的日语弱监督数据集和多个公开评估集上的实验表明，过滤和选择策略能协同降低CER，其中过滤（\(r=30\)）和基于相似性的选择分别带来最高6.4%和4.0%的相对CER降低。研究还发现，过滤阈值的选择需要在标签质量和数据多样性之间取得平衡，且该平衡在后续微调中依然重要。 🔗 开源详情代码：论文中未提供代码仓库链接。模型权重：论文中未提供预训练模型权重下载链接。数据集：论文作者收集的90,000小时日语弱监督数据集：论文未提供公开获取链接。评估用数据集： Corpus of Spontaneous Japanese (CSJ): 论文未提供链接。 CommonVoice (CV) 日语子集：论文未提供链接。 Noisy-KU: 论文提供了GitHub仓库链接：https://github.com/Kyoto-University-Speech-and-Audio/noisy-csj。 Demo：论文中未提及。复现材料：论文中未提及模型检查点、完整训练日志等复现材料的下载链接。但论文在“4.3 Detailed settings”部分详细列出了模型架构（17层Conformer）、训练超参数（学习率、批大小、步数）、硬件配置（4x NVIDIA RTX A6000）等关键复现信息。论文中引用的开源项目与数据：语言识别模型：speechbrain/lang-id-voxlingua107-ecapa (HuggingFace)：https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa VoxLingua107 数据集：论文中提及。 Noisy-KU 数据集：https://github.com/Kyoto-University-Speech-and-Audio/noisy-csj CC-100 数据集（日语子集）：用于构建词表，论文中提及。 Whisper 模型：用作参考基线，论文中提及（OpenAI）。日语 HuBERT base 模型：用于计算语音嵌入以进行样本选择，论文中提及。作者与机构 Kohei Matsuura: NTT Corporation, Human Informatics Laboratories, Japan (email: kohei.matsuura@ntt.com) Masato Mimura: Kyoto University, Graduate School of Informatics, Japan ...

LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training

📄 LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training #音乐生成 #大语言模型 #扩散模型 #多模态模型 #对比学习 #数据增强 9.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.4/10 | 前10% | #音乐生成 | #对比学习 | #大语言模型 #扩散模型 | arxiv 👥 作者与机构论文作者来自清华大学深圳国际研究生院（清华-港中文联合研究中心）、腾讯、武汉大学以及香港理工大学。通讯作者为清华大学的吴志勇教授和腾讯的于东博士。第一作者Lei Shun在论文完成时为腾讯实习生。 💡 毒舌点评这篇工作是典型的“大力出奇迹”式的系统工程论文，扎实有余，灵光乍现不足。其核心贡献——分层LeLM架构和渐进式后训练——本质上是将已有的Transformer LM、VQ-VAE、扩散模型和DPO/RLHF技术进行了精心的组合与流水线化设计。分层思想虽解决了序列长度和协调性问题，但并非首创；训练范式虽设计精巧（美学引导、阶段解耦），但更像是一套针对数据和任务特性的工程化解决方案，而非普适性的算法创新。论文最大的优点在于诚实和全面：它坦诚地承认了与顶级商业系统的差距，详细公开了训练细节和代码，消融实验做得非常扎实，证明了每个设计模块的必要性。对于领域内的实践者来说，这是一份极佳的参考蓝图和可复现的基线；但对于追求颠覆性创新的顶会审稿人来说，其方法论上的“新瓶装旧酒”会是主要扣分点。分数给到8.0，是对其工程完整度、实验严谨性和开源贡献的高度认可，但也明确反映了其在根本性创新上的局限。 📌 核心摘要本文提出了LeVo 2，一个用于可控且富有旋律性的完整歌曲生成的混合LLM-Diffusion框架。其核心架构LeLM采用分层表示建模，首先由混合语义LM预测混合令牌以捕获全局音乐结构（旋律、节奏、人声与伴奏协调），随后特定音轨LM基于前者的隐藏状态并行预测人声与伴奏令牌，以精化声学细节，最后由基于扩散的音乐编解码器将预测的令牌重建为波形。论文的主要贡献在于提出了一套由自动化音乐美学评估框架引导的三阶段训练范式，该范式包含解耦的渐进式后训练策略（SFT、大规模离线DPO、闭环半在线DPO），旨在依次优化生成质量、可控性（歌词和提示对齐）和音乐性，以缓解多目标优化冲突和静态数据集的局限。实验表明，LeVo 2在六个主观维度上显著超越所有开源基线，并在部分指标上接近领先的商业系统（Suno v5, Mureka v8），消融研究验证了其架构和训练策略各组件的有效性。 ...

LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features

📄 LoRA-Tuned Large Language Models for Dementia Detection via Multi-View Speech-Derived Features #参数高效微调 #大语言模型 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 7.5/10 | 前50% | #参数高效微调 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构作者：Jonghyeon Park, Olivier Jiyoun Jung, Myungwoo Oh 机构：1 NAVER Cloud, South Korea；2 Division of Communication and Media, Ewha Womans University, South Korea ...

MeloDISinger: Melody-Aware & Duration-Preserving Singing Voice Editing with Audio Infilling

📄 MeloDISinger: Melody-Aware & Duration-Preserving Singing Voice Editing with Audio Infilling 7.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.4/10 | 前50% | #语音合成 | arxiv 👥 作者与机构 Yoonjeong Park， Jaekwon Im， Juhan Nam。隶属于韩国科技院（KAIST），具体来自1 人工智能研究生院和 2 文化技术研究生院。 💡 毒舌点评这篇论文在问题定义上非常清晰和实际，直击了歌声编辑中旋律与时值保持的痛点。核心的MeloDRP模块思路巧妙，用比率预测替代绝对值预测来保证时值预算，是方法上的亮点。实验也较充分，做了多种编辑场景的细分评估。但审稿人必须指出几个关键弱点：1）所谓“旋律感知”依赖于从F0提取的伪MIDI，其质量（特别是音高估计的准确性和音符划分的合理性）直接决定了上限，但论文未深入分析其鲁棒性或提供误差影响。2）模型架构描述虽详细，但核心的跨注意力融合机制（MeloDRP如何具体整合音符信息）仅停留在“融合”一词，缺乏更细致的设计动机和对比分析（例如为何不用拼接）。3）与强基线Vevo2相比，客观指标提升显著，但主观MOS的提升幅度在部分场景（如Rep-P）并不巨大，说明在自然度上仍有优化空间。4）开源方面仅为演示页面，严重削弱了可复现性和即时影响力。总体而言，方法新颖，实验扎实，但在关键组件的深度剖析和完全可复现性上有所欠缺。 📌 核心摘要本文提出MeloDISinger，一个基于流匹配的歌声编辑（SVE）模型，旨在修改歌词的同时保留原始旋律、总时值和非编辑区域。其核心模块MeloDRP预测固定预算下的持续时间比率，而非绝对时长，从而实现显式的分段时长控制。为实现旋律感知的时长分配，MeloDRP通过交叉注意力融合语音线索与伪MIDI旋律上下文，并利用时值重叠监督来学习音素与音符之间的软对应关系。解码器采用基于流匹配的梅尔频谱图解码器，以音频填充的方式合成编辑区域，同时保留周围上下文。此外，论文还提出了一种使用WhisperX和LLM的时值感知编辑歌词生成管道，用于构建可行的评估场景。实验表明，MeloDISinger在客观和主观评估中均达到了最先进水平。 🔗 开源详情代码：论文中未提供代码仓库的具体链接（如GitHub、ModelScope）。论文在Related Work部分提到基线方法EditSinger的官方实现未公开，作者根据论文进行了复现。模型权重：论文中未提及模型权重（如HuggingFace链接）的公开获取方式。数据集：论文明确使用 GTSinger-En 数据集。论文中引用了来源 [gtsinger]，表明该数据集是公开可用的，但未提供直接的下载URL。 Demo：论文在结论部分提供了演示样例页面：https://cottonlove.github.io/MeloDISinger_demo/ 复现材料：论文未提供具体的训练配置文件、检查点或完整的复现代码包。论文详细描述了模型架构、超参数和训练流程，这些信息可作为复现参考。论文中引用的开源项目： Vocoders：引用了PC-NSF HiFi-GAN声码器的设置，并给出了链接：https://github.com/openvpi/vocoders/releases Resemblyzer：用于提取说话人嵌入，论文给出了链接：https://github.com/resemble-ai/Resemblyzer Parselmouth：用于提取F0，论文给出了链接：https://github.com/YannickJadoul/Parselmouth WhisperX：用于对齐歌词与音频，生成评估数据。论文引用了 [whisperx]，但未给出具体代码链接。 Gemini-2.5-flash：作为LLM用于生成编辑后的歌词。这是Google的商业模型，并非开源项目。其他相关工作引用：论文引用了多个开源项目或工作（如DiffSinger, Vevo2, VoiceCraft, VALL-E等），但并未将其全部作为直接复现依赖或提供链接。 🏗️ 方法概述和架构 MeloDISinger遵循一个三阶段的管道：特征提取、解析操作和建模。 ...

OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL

📄 OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL #自监督学习 #生成对抗网络 #语音增强 #语音分离 #语音转换 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1.2/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #生成对抗网络 #语音增强 | arxiv 👥 作者与机构作者：Karl El Hajal (Idiap Research Institute, Switzerland; EPFL, Switzerland), Mathew Magimai.-Doss (Idiap Research Institute, Switzerland) 机构：Idiap Research Institute（瑞士），洛桑联邦理工学院（EPFL，瑞士） ...

Position-Aware Target Speaker Extraction for Long-Form Multi-Party Conversations: A Diarization-Free Framework for ASR

📄 Position-Aware Target Speaker Extraction for Long-Form Multi-Party Conversations: A Diarization-Free Framework for ASR #语音识别 #多通道 #课程学习 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.5/10 | 前25% | #语音识别 | #课程学习 | #多通道 | arxiv 👥 作者与机构 Yichi Wang, Junzhe Chen, Wangjin Zhou, Tatsuya Kawahara. 日本京都大学信息学研究生院. 💡 毒舌点评这篇论文的核心问题定义清晰，提出的PATSE框架逻辑自洽，在自建的回放数据集上也取得了显著的性能提升。然而，一个顶会级别的工作必须直面其方法的阿喀琉斯之踵——对DOA准确性的绝对依赖。论文对此的讨论轻描淡写，仅在引言中提及DOA可由麦克风阵列或摄像头获得，却在实验部分使用了完美的物理扬声器方向作为真实值，这种“理想化”的评估严重削弱了结论的鲁棒性说服力。更关键的是，对于目标说话人提取而非分离的任务，其计算开销是随说话人数线性增长的，论文对此成本只字未提。此外，在真实世界TEIDAN数据集上的WER结果虽然最优，但20.5%的错误率依然很高，论文将此部分归因于ASR后端，但并未提供分离质量的客观度量（如SDR）来佐证。总而言之，框架新颖，实验扎实，但对实际部署的关键挑战避重就轻，使其“实用”价值打了折扣。 📌 核心摘要本文针对多人长对话ASR中“谁在何时说了什么”的难题，提出了位置感知目标说话人提取（PATSE）前端框架。该框架利用目标说话人相对稳定的到达方向（DOA）作为显式空间先验，通过一个DOA引导的空间编码器和条件模块，将目标特定的空间特征注入TIGER分离主干网络，从而直接为每个目标说话人生成独立的语音流。通过后续简单的语音活动检测（VAD）即可推断说话人活动，无需显式说话人分割（diarization）。为评估DOA相关方法，论文构建并发布了带真实房间DOA标注的回放数据集LibriReplay-DOA。在合成数据集LibriReplay-DOA和真实对话数据集TEIDAN上的实验表明，PATSE在下游ASR任务上持续优于连续语音分离（CSS）和基于分割的流水线方法。 ...

Predicting Timbre Traits for Interpretable Assessment of Musical Sound Synthesizers

📄 Predicting Timbre Traits for Interpretable Assessment of Musical Sound Synthesizers #音频生成 #音乐信息检索 6.1/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.1/10 | 前50% | #音频生成 | #音乐信息检索 | arxiv 👥 作者与机构作者：Théo Chasle Cauchy (Nantes Université, LS2N, 法国), Modan Tailleur (Nantes Université, LS2N, 法国), Lindsey Reymore (Arizona State University, School of Music, Dance and Theatre, 美国), Fanny Roche (Arturia, 法国), Mathieu Lagrange (Nantes Université, LS2N, 法国)。 ...

Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs

📄 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs #语音识别 #语音大模型 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.5/10 | 前10% | #语音识别 | #语音大模型 | arxiv 👥 作者与机构 Nithin Rao Koluguri, Sasha Meister, Nikolay Karpov, Piotr Zelasko, Desh Raj, Jagadeesh Balam, Boris Ginsburg。机构：NVIDIA, USA。 ...

Proteus: Automated Adversarial Robustness Testing for Audio Deepfake Detectors

📄 Proteus: Automated Adversarial Robustness Testing for Audio Deepfake Detectors #数据增强 #强化学习 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.3/10 | 后50% | #数据增强 | #数据增强 | #强化学习 | arxiv 👥 作者与机构作者：Nicolas M. Müller, Aditya Tirumala Bukkapatnam, Zohaib Ahmed 机构：Resemble AI, Mountain View, CA, USA 💡 毒舌点评这篇论文像一份不错的内部工程报告，但离顶级学术会议的论文标准还有距离。动机很好，解决的是真问题。但方法本质上是“把一堆音频效果器按不同顺序串起来试”，核心创新点有限。最要命的是，那个看起来最“学术”的Q-learning部分，居然写的是“实验还在进行中”——这就像你交卷时在最后一道大题下面写“解题思路有了，但计算还没算完”，教授能给你高分吗？实验更是寒酸，只用8个自家样本在自家检测器上测，就像只在自家泳池里测试鱼雷的威力，然后宣称它对所有海洋都有效。那个“质量门”的设置理由呢？没说。为什么某个攻击链特别有效？猜了一下就完事了。总之，想法有用，但验证和分析太薄了，像是为了发论文而匆忙包装的半成品。 📌 核心摘要本文提出了Proteus，一个由Resemble AI开发的自动化黑盒框架，用于系统性测试音频深度伪造检测器对现实世界音频变换的鲁棒性。该框架从包含11类、约110种变体的增强库中构建变换链，并通过一个“质量门”（基于WER和说话人相似度）确保变换后音频的可懂度和身份一致性，从而聚焦于有现实威胁的攻击。研究采用两种互补搜索策略：广度优先搜索（BFS）用于全面映射深度2和3的链的效果；以及一个设计用于探索更深链的Q-learning代理，该代理利用BFS数据进行热启动。在针对Resemble AI生产检测器的部署实验中（使用8个样本），研究发现了关键现象：所有高分攻击链都针对真实音频，能将其检测分数大幅推向伪造边界，揭示了检测器在假阳性攻击上的强脆弱性。论文讨论了如何利用这些发现通过针对性重训练来加固检测器，形成一个持续的对抗测试与防御闭环。 ...