论文速递 | 语音/音乐/音频论文速递

Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge

📄 Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge #数据增强 #自监督学习 6.3/10 | 创新 0.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.3/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 | arxiv 👥 作者与机构 Xueping Zhang (Duke Kunshan University), Han Yin (Korea Advanced Institute of Science and Technology), Yang Xiao (The University of Melbourne), Lin Zhang (Johns Hopkins University), Ting Dang (The University of Melbourne), Rohan Kumar Das (Fortemedia Singapore), Ming Li (The Chinese University of Hong Kong, Shenzhen)。 ...

ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models

📄 ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models #参数高效微调 8.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #参数高效微调 | #参数高效微调 | arxiv 👥 作者与机构作者: Yuxiang Wang, Qinke Ni, Shengbo Cai, Wan Lin, Liqiang Zhang, Zhizheng Wu 机构: 香港中文大学（深圳）, 腾讯混元, 深圳前海微众银行研究院, Amphion Technology Co., Ltd., 清华大学 ...

Phoneme-First Prediction for LLM-Based Speech Recognition

📄 Phoneme-First Prediction for LLM-Based Speech Recognition #语音识别 #大语言模型 #参数高效微调 #低资源 6.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #参数高效微调 | #大语言模型 #低资源 | arxiv 👥 作者与机构论文作者为 Jakob Poncelet 和 Hugo Van hamme。论文未明确列出作者所属机构，但致谢部分表明研究获得了 Research Foundation Flanders (FWO) 和 Flemish Government 的资助。 💡 毒舌点评这篇论文的核心想法“先读音素再认字”直观且易于实现，实验也做得很全面。但问题在于，它试图解决的“对齐”问题可能被简单化了，而提出的解决方案（音素）虽然有效，却引入了新的外部依赖（强制对齐工具和词典），并且其最核心的机制（联合训练为何有效）没有得到令人信服的解释。论文更像是一次成功的工程实践，而非一次深刻的机制探索。将ASR性能与专用系统直接比较显得底气不足，论文也巧妙地避开了与近期多模态LLM的强基线对比。 📌 核心摘要针对当前基于LLM的语音识别系统在连接语音编码器特征与文本语义嵌入时存在的对齐差距问题，本文提出了一种简单有效的方法：在训练和推理时，让LLM首先从语音特征中预测音素，然后再生成文本转录。通过引入音素这一细粒度的声学单元作为中间目标，模型能够学习更精细的发音知识，从而减少声学混淆（如同音异形词）。为解决仅使用音素优先提示训练时，LLM可能过度依赖音素序列而忽略原始语音特征的问题，论文提出了一种联合训练策略，即在训练时随机混合使用标准和音素优先的提示-目标对。实验在多个数据集（LibriSpeech, TEDLIUM, Spoken Dutch Corpus）和不同类型的语音编码器（Whisper, HuBERT, CTC正则化编码器）上进行，结果表明，该方法普遍降低了词错误率（WER），尤其在低资源（100小时）和更自然的语音（TEDLIUM）上效果更显著。同时，分析显示模型生成的转录在音素层面也更准确，表明其声学忠实度得到提升。该方法无需额外的人工标注，且为模型决策提供了一定的可解释性。 ...

Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice

📄 Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice #多模态模型 #正则化微调 #音乐信息检索 #音乐理解 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | #音乐信息检索 | #多模态模型 | #正则化微调 #音乐理解 | arxiv 👥 作者与机构 Kazuki Kawamura (东京大学，索尼计算机科学实验室), Fujiki Nakamura (东京大学), Hayato Nishioka (索尼计算机科学实验室， NeuroPiano研究所), Momoko Shioki (索尼计算机科学实验室， NeuroPiano研究所), Shinichi Furuya (索尼计算机科学实验室， NeuroPiano研究所), Jun Rekimoto (东京大学，索尼计算机科学实验室) ...

RAT: Reference-Augmented Training for ASV Anti-Spoofing

📄 RAT: Reference-Augmented Training for ASV Anti-Spoofing #数据增强 8.8/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | #数据增强 | #数据增强 | arxiv 👥 作者与机构 Vojtěch Staněk, Anton Firc, Jakub Řeřicha, Kamil Malinka Security@FIT, 布尔诺理工大学，捷克共和国 {istanek, ifirc, iresj, malinka}@fit.vut.cz 💡 毒舌点评优点：观察到一个非常有趣的现象——训练时用参考，推理时不用也能提升性能，并设计了有效的RAT策略来利用它。实验在强力基准ASVspoof 5上做得很扎实，单模型性能优越，甚至超过了大型融合系统，结果有说服力。分析部分（第5节）做得不错，尝试从功能依赖和内部机制解释这个现象。缺点：1. 参考信息块（RIB）的设计（如MLP层数、交叉注意力头数为4）是基于“初步实验”，缺乏更充分的设计空间探索或消融来证明其必要性或优越性。2. 论文声称“推理时不需要参考”，但Table 1显示使用配对参考（2.63% EER）比使用零向量（2.57% EER）性能略差，且Table 2中各种退化条件下性能波动很小，这使得“参考主要服务于训练动态”的核心论点在数值上略显矛盾（虽然作者试图解释）。3. 数据增强策略（30%概率应用多种增强）被提及对RAT至关重要，但并未提供对该策略本身的消融研究（例如，去掉某些增强会如何？）。4. 缺乏与其他数据集的交叉验证，结论的泛化性未得到验证。5. 引言中提到的灵感来源（人脸变形检测、ASV反欺骗）与本文方法的实际关联较弱。 ...

Recovering the Zipfian Distribution in Unsupervised Term Discovery

📄 Recovering the Zipfian Distribution in Unsupervised Term Discovery #自监督学习 #低资源 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 🔥 8.7/10 | 前50% | #自监督学习 | #自监督学习 | #低资源 | arxiv 👥 作者与机构论文作者为 Danel Slabbert, Simon Malan, Herman Kamper。作者所属机构未在论文中明确提及。 💡 毒舌点评这是一篇动机清晰、实验系统的“工具选型”论文。它有效地挑战了无监督术语发现(UTD)领域中使用K-means等中心化聚类方法的惯性思维，并用扎实的跨语言实验证据表明，基于图的或凝聚式的底部聚类方法能更好地恢复自然语言的Zipf分布。论文的亮点在于其洞察力：聚类的归纳偏置对最终产出（词汇表结构）有决定性影响。然而，论文的“发现”在本质上更接近于一篇全面的实验对比研究，而非提出一种全新的算法或理论框架。其理论深度有限，对“为何底部方法更好”的解释主要停留在“不强制中心”这一层面，缺乏更形式化的分析。实验设计虽然系统，但设置过于保守（使用真实分割作为上限），未能触及更现实的挑战。因此，它是一篇扎实、实用的工作，但离顶级会议中那些开辟新方向的论文还有差距。 📌 核心摘要本文系统比较了五种聚类方法在无监督术语发现（UTD）任务中对生成词汇表的影响。研究发现，传统的中心化聚类方法（如K-means）由于其偏向于生成均匀大小簇的归纳偏置，会导致生成的词汇表频率分布平坦，无法反映自然语言的长尾Zipf分布。相反，底部聚类方法（图聚类和凝聚聚类）能够更好地恢复符合语言特性的Zipf分布，并在多个评估指标（特别是衡量类型完整性的iNES和F1 NES）上显著优于中心化方法。其中，图聚类方法通过相似度阈值(\(\tau\))和分辨率参数(\(\gamma\))两个可解释超参数，提供了对生成分布形态和粒度的有效控制。该结论在英语、南非荷兰语和法语三种语言以及三种分割条件下均得到验证。 🔗 开源详情代码：https://github.com/adendorffy/zipf-clus 模型权重：论文中未提及模型权重的具体下载链接。论文使用了预训练的WavLM Large模型提取特征，但未提供其权重获取方式。数据集： English: LibriSpeech dev-clean (4.5小时，40位说话者)。论文中未提供下载链接。 Afrikaans: 从FLEURS数据集中抽取的2小时语音（5位说话者）。论文中未提供下载链接。 French: 从ZeroSpeech Challenge Track 2中抽取的4.2小时子集（12位说话者）。论文中未提供下载链接。 Demo：论文中未提及。复现材料：论文中未提及完整的训练配置、检查点或附录。文中描述了部分实现细节，如使用PCA将WavLM特征降至350维，K-means聚类使用FAISS库实现等。论文中引用的开源项目： igraph: 用于实现图聚类。链接：https://igraph.org/ FAISS: 用于实现K-means聚类。链接：https://github.com/facebookresearch/faiss scikit-learn: 用于实现BIRCH和层次聚类（凝聚聚类）。链接：https://scikit-learn.org/ ZeroSyl: 用于无监督音节边界检测的方法。论文中未提供其官方代码或主页链接。 🏗️ 方法概述和架构论文遵循标准的无监督术语发现（UTD）流程：分割、表示、聚类。研究固定了表示阶段，旨在隔离并评估不同聚类方法的影响。 ...

RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification

📄 RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification #对比学习 #多模态模型 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1.0/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Shakhrul Iman Siam¹, Tiantian Feng², Jiankun Zhang³, Shrikanth Narayanan², Mi Zhang¹ ¹The Ohio State University, ²University of Southern California, ³University of Chicago 通讯作者：{siam.5, mizhang.1}@osu.edu ...

Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding

📄 Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding #多模态模型 #大语言模型 9.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.4/10 | 前25% | #多模态模型 | #大语言模型 | arxiv 👥 作者与机构作者：Zhiyuan Zhu, Yixuan Chen, Yiwen Shao, Wenxiang Guo, Changhao Pan, Yu Zhang, Yuxiang Wang, Wei Liu, Houhua Zhang, Chengkuan Zeng, Wenbo Cheng, Yunxi Liu, Rui Yang, Steve Yves, Liefeng Bo, Zhou Zhao 机构：浙江大学，腾讯混元 ...

Speaker Group Encoding in Self-supervised Speech Recognition Models

📄 Speaker Group Encoding in Self-supervised Speech Recognition Models #自监督学习 #语音识别 #说话人识别 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #说话人识别 | arxiv 👥 作者与机构 Felix Herron1,2, Solange Rossato2, Alexandre Allauzen1, Benoit Favre2,3, François Portet2 MILES Team, LAMSADE, Université Paris Dauphine-PSL, France GETALP Team, LIG, Université Grenoble Alpes, France NLP team, LIS, Aix-Marseille University, France 💡 毒舌点评这篇论文的野心不小，想搞清楚自监督语音模型里到底藏了多少“刻板印象”（性别、年龄、方言等）。想法挺有意思，也设计了带梯度反转的探针来避免“记人头”，算是个方法上的小创新。实验做得也算系统，横跨了预训练、微调、公平性算法好几个阶段。但问题也很明显：一是对“语音变异”和“语义变异”的划分过于想当然，缺乏硬核的量化标准来验证；二是实验设置有硬伤，用智能音箱命令的测试集去评估在通用语音（CommonVoice）上微调的模型，这领域鸿沟就像让一个在普通话新闻联播上训练的人去听懂四川话点外卖，结论的普适性得打个大问号；三是Meta数据集的伪ID分割堪称“掩耳盗铃”，泄露风险未被严肃评估；四是整篇分析都停留在“探测到信息存在”的层面，至于这些信息到底怎么具体影响ASR的错误率，跟下游任务性能有多大因果关系，基本是“浅尝辄止”。代码、模型、数据全都没开源，让复现成了空中楼阁。 ...

Speech Encoder Fusion for LLM-based Automatic Speech Recognition

📄 Speech Encoder Fusion for LLM-based Automatic Speech Recognition #语音识别 #多模态模型 #低资源 #参数高效微调 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 后50% | #语音识别 | #参数高效微调 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme KU Leuven, Department Electrical Engineering ESAT-PSI, Leuven, Belgium 💡 毒舌点评本文的核心想法——融合多个语音编码器以提升LLM-ASR性能——直觉上合理，但技术执行和实验论证深度不足。所谓“创新”的融合架构（如Sigmoid门控）本质上是简单的加权平均或注意力机制的标准应用，缺乏针对语音-LLM交互的专门设计。实验结论在多语言和说话人分离任务上显得有些仓促，部分关键结论（如“Temporal Transformer捕捉互补信息最佳”）仅凭有限的表格数据支撑，缺乏更细致的分析。论文自述的“计算开销有限”优势在文中未提供任何实际运行时对比数据，显得空洞。整体而言，这是一项增量式的工作，将现有融合技术打包应用到语音LLM中，其技术贡献和系统性分析未达到顶会论文的典型水准。 📌 核心摘要本文探讨了在基于大语言模型（LLM）的自动语音识别（ASR）系统中，融合多个预训练语音编码器的可能性。作者旨在利用不同编码器（如多语言的Whisper与单语言的专用模型NeLF、Wav2Vec2）的互补性来提升性能。研究提出了五种融合策略：特征拼接、Sigmoid门控、多头门控、位置Transformer和时间Transformer。实验在荷兰语、英语的单语和多语ASR任务，以及结合说话人编码器（ECAPA2）的说话人分离ASR任务中进行。结果表明，在大多数设置下，精心设计的融合方法（特别是Transformer类）优于简单的特征拼接，且计算开销增加有限。此外，将预训练ASR解码器的初步预测作为LLM的额外输入，可进一步显著提升性能，甚至在某些情况下使语音LLM接近或超越专用ASR模型。 ...