Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构 作者:Qixu Chen,Satoshi Nakamura 机构:School of Data Science 和 School of Artificial Intelligence,The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 356 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words

AuRA: Internalizing Audio Understanding into LLMs as LoRA

📄 AuRA: Internalizing Audio Understanding into LLMs as LoRA #语音问答 #参数高效微调 #知识蒸馏 #语音识别 #多模态模型 7.5/10 ✅ 7.5/10 | 前25% | #语音问答 | #参数高效微调 | #知识蒸馏 #语音识别 | arxiv 👥 作者与机构 作者:Bo Cheng, Lei Shi, Zhanyu Ma, Yuan Wu, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He 机构:Meituan, Jilin University 💡 毒舌点评 这篇论文精准地切中了当前语音-LLM集成的一个痛点:要么重(端到端训练),要么慢(级联推理),要么不够紧密(桥接方法)。AuRA提出的“内化”思路确实巧妙,像给LLM装了个隐藏的“语音耳朵”,推理时还能把这个“外挂”拆了,效率拉满。消融实验做得相当扎实,把各组件的作用都讲清楚了。不过,这位“耳朵”目前只能听懂“字面意思”(ASR),对于弦外之音(情感、语调)怕是无能为力,论文也老实承认了。实验范围有点保守,只在英语语音问答上打转,更广泛的语音理解任务(比如情感识别、对话)还没试水,这让“通用音频理解”的宣称稍微打了点折扣。总的来说,是一篇工程实现很扎实、想法很实用的扎实工作,但离“全面理解音频”还差那么一口气。 📌 核心摘要 AuRA 是一种轻量级的语音-LLM适配方法,其核心思想是将音频理解能力“内化”到大语言模型(LLM)的内部。该方法采用教师-学生蒸馏框架:训练时,一个冻结的ASR编码器(教师)与一个插入了LoRA适配器的冻结LLM(学生)并行处理相同的语音输入。通过设计的层间蒸馏损失,将教师模型的中间表示对齐到学生LLM的浅层隐藏状态中。推理时,移除庞大的ASR教师编码器,仅保留轻量的音频嵌入模块和LoRA适配的LLM,从而实现高效的端到端推理。在SDQA和HeySquad基准测试中,AuRA在准确率上超越了级联、适配和大规模端到端基线,同时显著降低了推理延迟和内存占用。 🔗 开源详情 代码:论文中未提供AuRA的官方代码仓库链接。 模型权重: AuRA 模型权重:论文中未提及。 使用的基础模型: Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 和 https://huggingface.co/Qwen/Qwen2.5-3B-Instruct。 Whisper-large-v3: https://huggingface.co/openai/whisper-large-v3。 数据集: HeySquad: https://huggingface.co/datasets/yijingwu/HeySQuAD_human。 SDQA: https://huggingface.co/datasets/WillHeld/SD-QA。 CommonVoice (用于适配训练的语音部分):论文提及使用英文子集,但未提供特定链接。该项目主站为 https://commonvoice.mozilla.org/。 VoRA-TextQA-Mixed (用于适配训练的文本部分):论文未提供链接,仅提及名称。 复现材料:论文附录 A 提供了详细的复现信息,包括训练数据(10K CommonVoice 和 10K VoRA-TextQA-Mixed)、音频预处理方法、LoRA 适配配置(前4层,秩256)、优化器设置(学习率 2e-4,批大小128,训练3个epoch)以及计算资源(8块 NVIDIA H20 GPU 训练约1.5小时)。 论文中引用的开源项目: Whisper: https://github.com/openai/whisper。 Qwen (包括 Qwen2, Qwen2.5, Qwen2.5-Omni): https://github.com/QwenLM/Qwen (具体模型权重见上方模型权重部分)。 BLSP: https://github.com/microsoft/BLSP。 DiVA: https://github.com/declare-lab/DiVA。 Qwen2-Audio: 模型权重链接见上文,论文未提供独立代码库链接。 Qwen2.5-Omni: 模型权重链接见上文,论文未提供独立代码库链接。 CommonVoice: https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 AuRA 的整体架构遵循教师-学生蒸馏范式(如图2所示),旨在将ASR教师的能力转移到LLM学生中,并在推理时移除教师。其核心流程包含三个关键组件:音频补丁嵌入、LoRA适配的LLM学生以及层间蒸馏机制。 ...

2026-06-10 · 更新于 2026-06-12 · 1 min · 184 words

GC-LoRA: Gated Convolutional LoRA for Parameter-Efficient Acoustic Adaptation

📄 GC-LoRA: Gated Convolutional LoRA for Parameter-Efficient Acoustic Adaptation #语音识别 #参数高效微调 7.6/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.6/10 | 前25% | #语音识别 | #参数高效微调 | arxiv 👥 作者与机构 Natarajan Balaji, Zilai Wang, Kaiyuan Zhang, Mohan Shi, Abeer Alwan。1 University of California, Los Angeles, USA。 💡 毒舌点评 这篇工作把“在LoRA的低秩瓶颈里塞个卷积”这件事包装得相当到位,动机(给Transformer补局部建模能力)清晰且符合直觉。实验设计也够扎实,跨数据集、跨模型规模的验证都有,消融实验也基本做全了。不过,最大亮点也就是“把Conformer的一个模块精简后嵌进LoRA”,创新幅度不算特别大。作者诚实地承认了在某些数据集上性能提升很微弱(如CORAAL上9.9% vs 10.1%),但统计检验还是显著的,这很好。最大的槽点是,这篇工作只在Whisper这种encoder-only的语音编码器上做了验证,对于现在更主流的encoder-decoder或者端到端语音大模型(如Whisper的完整结构,或Qwen-Audio等)效果如何,完全没提。另外,所有实验都用的英语,跨语言能力是个大大的问号。总结:一篇扎实但保守的增量式改进工作,适合发在ICASSP或Interspeech,冲击NeurIPS/ICML主会需要更强的通用性论证。 📌 核心摘要 本文针对基于Transformer的语音基础模型在声学失配场景下性能下降的问题,提出了GC-LoRA。其核心思想是将Conformer模型中的门控深度可分离卷积模块,嵌入到标准LoRA适配器的低秩瓶颈内部,并应用于注意力层的输出投影矩阵(Wo)。这种设计使得适配器在保持低参数量的同时,能够显式建模局部声学上下文,从而弥补标准LoRA仅进行全局线性调整的不足。在Whisper骨干网络上,GC-LoRA仅使用447k参数,就在包括会议录音(AMI)、电话语音(Switchboard)、方言(CORAAL)和儿童语音(MyST)在内的四个跨领域数据集上,相较于使用829k参数的标准LoRA,实现了统计显著的WER降低(最高达10.9%相对改进)。消融实验验证了门控机制、深度可分离卷积以及Wo目标选择的有效性。该方法代码已开源。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 364 words

LLM can Read Spectrogram: Encoder-free Speech-Language Modeling

📄 LLM can Read Spectrogram: Encoder-free Speech-Language Modeling #语音识别 #语音合成 #参数高效微调 #大语言模型 #模型压缩 8.6/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #语音识别 | #参数高效微调 | #语音合成 #大语言模型 | arxiv 👥 作者与机构 论文标题为 “LLM can Read Spectrogram: Encoder-free Speech-Language Modeling”。arXiv ID为 2606.10231。论文中未明确列出所有作者及隶属机构。基于作者列表格式和内容,可确认论文有多个作者及贡献者,但具体所属机构(如高校、公司或研究所)未在提供的论文节选中明确说明。 💡 毒舌点评 这篇论文的“去编码器”想法确实像在语音领域做了一次“iPhone时刻”的宣言,勇气可嘉。然而,这种“直接吃生频谱图”的豪赌,在ASR上虽勉强过关,但在TTS上却更像是一个概念验证的“玩具”——输出质量远未达标,却试图用“可行性”一词来掩盖工程上的粗糙。论文的论证强在消融实验的洞察力(比如发现了LLM低层更像语音编码器),但弱在对“为什么需要去编码器”这个根本问题的辩护上。作者声称去掉了巨大的编码器,却忘了提自己引入的线性投影层和LLM本身庞大的参数量才是计算瓶颈的新主角。更令人皱眉的是,论文与同期Google Gemma 4 12B的“撞车”,虽然脚注了,但削弱了其作为“首篇学术论文”的时效性和独特性。总而言之,这是一项有启发性但未完成的工作,像一篇精彩的博士开题报告,而非一篇令人信服的NeurIPS论文。 📌 核心摘要 本文提出Mel-LLM,一种无编码器的语音大语言模型(Speech-LLM)架构。该模型直接将预处理的梅尔频谱图块通过线性投影层输入到LLM(基于Phi-4-MM)中,省去了传统的预训练语音编码器(如Whisper)。论文在自动语音识别(ASR)和文本转语音(TTS)任务上进行了探索。 ASR结果表明,无编码器方案在OpenASR公开数据集上与编码器基线相比性能下降有限,尤其在数据规模扩大(10倍内部数据)时差距显著缩小(相对下降仅3.8%)。消融实验显示,来自多模态检查点(Phi-4-MM)的初始化在有限数据下至关重要,且LLM的低层(0-23层)更关键于隐式语音编码。 TTS部分采用基于MELLE框架的下一个词元VAE方法进行初步探索,结果表明无编码器架构在TTS上具有可行性,但性能尚未达到最优,且严重依赖Phi-4-MM初始化和合适的训练技巧(如Dropout)。 ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 615 words

ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models

📄 ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models #参数高效微调 8.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #参数高效微调 | #参数高效微调 | arxiv 👥 作者与机构 作者: Yuxiang Wang, Qinke Ni, Shengbo Cai, Wan Lin, Liqiang Zhang, Zhizheng Wu 机构: 香港中文大学(深圳), 腾讯混元, 深圳前海微众银行研究院, Amphion Technology Co., Ltd., 清华大学 ...

2026-06-10 · 更新于 2026-06-12 · 1 min · 208 words

Phoneme-First Prediction for LLM-Based Speech Recognition

📄 Phoneme-First Prediction for LLM-Based Speech Recognition #语音识别 #大语言模型 #参数高效微调 #低资源 6.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #参数高效微调 | #大语言模型 #低资源 | arxiv 👥 作者与机构 论文作者为 Jakob Poncelet 和 Hugo Van hamme。论文未明确列出作者所属机构,但致谢部分表明研究获得了 Research Foundation Flanders (FWO) 和 Flemish Government 的资助。 💡 毒舌点评 这篇论文的核心想法“先读音素再认字”直观且易于实现,实验也做得很全面。但问题在于,它试图解决的“对齐”问题可能被简单化了,而提出的解决方案(音素)虽然有效,却引入了新的外部依赖(强制对齐工具和词典),并且其最核心的机制(联合训练为何有效)没有得到令人信服的解释。论文更像是一次成功的工程实践,而非一次深刻的机制探索。将ASR性能与专用系统直接比较显得底气不足,论文也巧妙地避开了与近期多模态LLM的强基线对比。 📌 核心摘要 针对当前基于LLM的语音识别系统在连接语音编码器特征与文本语义嵌入时存在的对齐差距问题,本文提出了一种简单有效的方法:在训练和推理时,让LLM首先从语音特征中预测音素,然后再生成文本转录。通过引入音素这一细粒度的声学单元作为中间目标,模型能够学习更精细的发音知识,从而减少声学混淆(如同音异形词)。为解决仅使用音素优先提示训练时,LLM可能过度依赖音素序列而忽略原始语音特征的问题,论文提出了一种联合训练策略,即在训练时随机混合使用标准和音素优先的提示-目标对。实验在多个数据集(LibriSpeech, TEDLIUM, Spoken Dutch Corpus)和不同类型的语音编码器(Whisper, HuBERT, CTC正则化编码器)上进行,结果表明,该方法普遍降低了词错误率(WER),尤其在低资源(100小时)和更自然的语音(TEDLIUM)上效果更显著。同时,分析显示模型生成的转录在音素层面也更准确,表明其声学忠实度得到提升。该方法无需额外的人工标注,且为模型决策提供了一定的可解释性。 ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 435 words

RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification

📄 RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification #对比学习 #多模态模型 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1.0/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Shakhrul Iman Siam¹, Tiantian Feng², Jiankun Zhang³, Shrikanth Narayanan², Mi Zhang¹ ¹The Ohio State University, ²University of Southern California, ³University of Chicago 通讯作者:{siam.5, mizhang.1}@osu.edu ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 464 words

Speech Encoder Fusion for LLM-based Automatic Speech Recognition

📄 Speech Encoder Fusion for LLM-based Automatic Speech Recognition #语音识别 #多模态模型 #低资源 #参数高效微调 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 后50% | #语音识别 | #参数高效微调 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme KU Leuven, Department Electrical Engineering ESAT-PSI, Leuven, Belgium 💡 毒舌点评 本文的核心想法——融合多个语音编码器以提升LLM-ASR性能——直觉上合理,但技术执行和实验论证深度不足。所谓“创新”的融合架构(如Sigmoid门控)本质上是简单的加权平均或注意力机制的标准应用,缺乏针对语音-LLM交互的专门设计。实验结论在多语言和说话人分离任务上显得有些仓促,部分关键结论(如“Temporal Transformer捕捉互补信息最佳”)仅凭有限的表格数据支撑,缺乏更细致的分析。论文自述的“计算开销有限”优势在文中未提供任何实际运行时对比数据,显得空洞。整体而言,这是一项增量式的工作,将现有融合技术打包应用到语音LLM中,其技术贡献和系统性分析未达到顶会论文的典型水准。 📌 核心摘要 本文探讨了在基于大语言模型(LLM)的自动语音识别(ASR)系统中,融合多个预训练语音编码器的可能性。作者旨在利用不同编码器(如多语言的Whisper与单语言的专用模型NeLF、Wav2Vec2)的互补性来提升性能。研究提出了五种融合策略:特征拼接、Sigmoid门控、多头门控、位置Transformer和时间Transformer。实验在荷兰语、英语的单语和多语ASR任务,以及结合说话人编码器(ECAPA2)的说话人分离ASR任务中进行。结果表明,在大多数设置下,精心设计的融合方法(特别是Transformer类)优于简单的特征拼接,且计算开销增加有限。此外,将预训练ASR解码器的初步预测作为LLM的额外输入,可进一步显著提升性能,甚至在某些情况下使语音LLM接近或超越专用ASR模型。 ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 521 words

Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains

📄 Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains #语音识别 #参数高效微调 #多任务学习 #数据增强 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #多任务学习 #数据增强 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme,来自比利时鲁汶大学电气工程系ESAT-PSI。 💡 毒舌点评 这篇论文的核心想法——让语音大模型通过“推理”来利用宽泛的元数据进行纠错——听起来很美好,但更像是把传统的“关键词偏置”包装成了“深度推理”。其“推理”链的生成完全依赖于一个离线的文本LLM,训练时模型只是在模仿这个固定链条的输出,这与模型自身进行多步逻辑推断的“深度”相去甚远。实验上,评估集(M³AV)与训练数据来源高度重合(同为YouTube学术视频),这让人怀疑其改进是否仅仅是过拟合到了特定领域和说话风格。更关键的是,论文声称解决“音频与上下文冲突”,但并未提供任何实验或分析来展示模型在这种情况下会如何决策,这使得其核心论证之一成了空中楼阁。总的来说,工作扎实但缺乏真正的突破性,将“链式思维监督”等同于“学会推理”是一个需要更严格论证的强假设。 📌 核心摘要 本文针对自动语音识别(ASR)在罕见词和领域特定术语上表现不佳的问题,提出了一种利用广泛上下文描述(如视频标题、描述)进行“深度上下文推理”的方法。核心思路是构建一个两阶段流程:首先,通过流水线将音频、其错误转录文本、上下文元数据以及文本LLM生成的“推理链”配对,构建一个“推理增强”的语音数据集(约400小时)。其次,训练语音LLM(如Qwen2-Audio-7B)以链式思维(CoT)格式输出:先生成初始转录,然后基于上下文进行推理,最后输出修正后的转录。实验在M³AV、SlideSpeech和SlideAVSR等测试集上进行,表明该方法在稀有词和命名实体识别上相比多种基线(如无微调、仅ASR微调、带上下文直接微调)均有提升。然而,论文的“推理”主要依赖预生成的监督信号,模型是否真正进行了多步推理存疑。评估数据集与训练数据同源,泛化能力有待验证。论文开源了构建的数据集,但未提供代码或模型权重。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 252 words