语言模型 | 语音/音乐/音频论文速递

Abstraction Induces the Brain Alignment of Language and Speech Models

Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation

📄 Thinking-while-speaking: A Controlled, Interleaved Reasoning Method for Real-Time Speech Generation #语音对话系统 #强化学习 #实时处理 #语言模型 ✅ 6.9/10 | 前50% | #语音对话系统 | #强化学习 | #实时处理 #语言模型 | arxiv 学术质量 5.5/7 | 影响力 1.2/2 | 可复现性 0.2/2 | 置信度中 👥 作者与机构第一作者：Xuan Du (华为) 通讯作者：Xinghao Chen (华为) 作者列表：Xuan Du (华为), Qiangyu Yan (华为), Wenshuo Li (华为), Borui Jiang (华为), Changming Xiao (华为), Han Shu (华为), Xinghao Chen (华为)。机构信息为“Huawei Technologies”，未提供更具体的实验室或部门信息。 💡 毒舌点评论文将“边思考边说话”模式形式化为一个可控的交错生成框架，通过TA-Balance奖励函数管理推理片段长度以匹配语音播放时间，思路清晰且针对实时交互的痛点。然而，其核心贡献更偏向于一个针对特定基座模型（Qwen2.5-Omni-3B）的工程化优化方案。方法强依赖于精心构建的离线交错数据，这种数据构建管线本身的通用性和可扩展性存疑。实验仅在一个3B模型上验证，缺乏对方法泛化性（如更大模型、不同架构）的深入探讨。此外，流畅度评估完全依赖LLM打分器，缺乏人类听感评测，说服力不足。 ...

Reducing Linguistic Hallucination in LM-Based Speech Enhancement via Noise-Invariant Acoustic-Semantic Distillation

📄 Reducing Linguistic Hallucination in LM-Based Speech Enhancement via Noise-Invariant Acoustic-Semantic Distillation #语音增强 #语音编解码器 #知识蒸馏 #自监督学习 #语言模型 ✅ 7.2/10 | 前25% | #语音增强 | #语音编解码器 | #知识蒸馏 #自监督学习 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Zheng Wang（南京大学）通讯作者：Jing Lu（南京大学）作者列表：Zheng Wang（南京大学）、Xiaobin Rong（南京大学）、Hang Su（MiLM Plus，小米公司）、Tianyi Tan（南京大学）、Junnan Wu（MiLM Plus，小米公司）、Lichun Fan（MiLM Plus，小米公司）、Zhenbo Luo（MiLM Plus，小米公司）、Jian Luan（MiLM Plus，小米公司）、Jing Lu（南京大学） 💡 毒舌点评本文针对基于语言模型的语音增强中“语言幻觉”问题，提出了一个声学-语义联合蒸馏框架。其核心思想清晰：通过两个专门教师模型（声学编解码器WavCodec和语义教师WavS2T）从干净语音中提取互补的表征目标，监督一个学生编码器从带噪语音中学习噪声不变的条件表征，从而提升下游语言模型生成内容的可信度。该方法在低信噪比和混响条件下效果显著，实验设计全面，特别是构建的可控模拟测试集对评估幻觉问题很有价值。然而，该框架的复杂性（依赖三个大型预训练模型）和计算成本不容忽视，论文对此的讨论不足。此外，其声学教师模型仅在英文数据上训练，限制了结论的普适性。整体而言，这是一份扎实的系统性改进，但距离可直接部署的解决方案仍有距离。 📌 核心摘要问题：基于语言模型的语音增强（LM-based SE）在严重噪声或混响条件下，常因提取的条件信息不可靠而产生“语言幻觉”——生成的语音听感自然但内容错误（如词语替换、删除）。方法核心：提出L3-SE框架，其核心是一个“噪声不变编码器”(NI-Encoder)。该编码器通过联合蒸馏两个教师模型在干净语音上学到的表征（声学教师WavCodec提供保真度目标，语义教师WavS2T提供一致性目标），从带噪语音中提取出同时具备声学保真度和语义一致性的条件表征，用于引导语言模型生成干净声学token。创新之处：与现有单方面（仅声学或仅语义）增强条件信息的方法不同，本文首次将联合噪声不变声学-语义蒸馏应用于基于语言模型的语音增强，实现了双重目标的同步优化。此外，论文设计了共享SSL骨干（WavLM）的专用教师模型，并通过可学习层权重自适应提取互补特征。实验结果：在DNS1测试集（特别是混响条件）和自建的模拟测试集（特别是低SNR条件）上，L3-SE在语言一致性指标（WER, dWER, LPS, SBS）上显著优于包括其他LM方法在内的基线，同时保持有竞争力的感知质量（DNSMOS, UTMOS）。关键数据示例见下表（摘要）。模型 DNS1 with-reverb LibriSpeech low-SNR dWER ↓ WER ↓ UniSE (LM baseline) 34.2 33.6 L3-SE 8.42 7.13 实际意义：为解决生成式语音增强中的内容忠实度问题提供了一种有效框架，提升了语音增强系统在恶劣声学环境下的可靠性，对语音通信、语音识别前端等下游应用有重要价值。主要局限性：系统复杂度高，依赖多个大型预训练模型，计算开销大；WavCodec教师仅使用英文数据训练，多语言泛化能力未验证；未探讨模型计算效率与延迟；缺乏对错误类型的细分分析。 🔗 开源详情代码：论文中未提及代码链接。论文明确指出：“The complete source code will be released after the manuscript is accepted.” 模型权重：论文中未提及。数据集： Emilia：用于训练的干净语音数据集。论文中提及使用了其英文（EN）和中文（ZH）子集，并给出了筛选条件（DNSMOS > 3.50 或 > 3.40）。未提供具体下载链接。 DNS5：噪声数据集。链接：https://dns4public.github.io/dns_4/ WHAM!：噪声数据集。链接：http://wham.wham-research.org/ FSD50K：噪声数据集。链接：https://zenodo.org/record/4060432 FMA：噪声数据集。链接：https://freemusicarchive.org/ OpenSLR26 和 OpenSLR28：房间脉冲响应（RIRs）数据集。链接：https://www.openslr.org/26/ 和 https://www.openslr.org/28/ DNS1 测试集：用于评估的标准测试集。链接：https://github.com/microsoft/DNS-Challenge LibriSpeech：用于构建模拟评估集。链接：https://huggingface.co/datasets/openslr/librispeech_asr URGENT 2025 验证集：用于构建模拟评估集的噪声片段。链接：https://github.com/sony/urgent25_challenge Demo：https://max1wz.github.io/L3-SE-Demo-Page/ 复现材料：论文在表1中提供了所有模型组件的主要训练超参数。论文在附录A中详细说明了WavCodec和WavS2T的训练目标与损失函数。论文在4.4节中提供了模型架构的实现细节，如WavCodec的编码器/解码器结构、WavS2T的Transformer层数、LM的适配器维度等。论文中引用的开源项目： WavLM：预训练语音模型，用作共享骨干网络。链接：https://huggingface.co/microsoft/wavlm-large Qwen3-0.6B：预训练文本语言模型，用于语义教师和下游LM。链接：https://huggingface.co/Qwen/Qwen3-0.6B DAC (Descript Audio Codec)：高保真音频编解码器，其训练目标被WavCodec采用。链接：https://github.com/descriptinc/descript-audio-codec Vocos：声码器模型，用于WavCodec解码器。链接：https://github.com/so-vits-svc/vocos SimCodec：基线编解码器。链接：https://huggingface.co/yaoxunji/gen-se Mimi：基线编解码器。链接：https://huggingface.co/kyutai/mimi XY-Tokenizer：基线编解码器。链接：https://huggingface.co/fdugyt/XY_Tokenizer BigCodec：基线编解码器。链接：https://huggingface.co/Alethia/BigCodec WavTokenizer：基线编解码器。链接：https://huggingface.co/novateur/WavTokenizer X-codec2：基线编解码器。链接：https://huggingface.co/HKUSTAudio/xcodec2 BiCodec：基线编解码器。链接：https://huggingface.co/SparkAudio/Spark-TTS-0.5B TF-GridNet：语音增强基线模型。链接：https://huggingface.co/kohei0209/tfgridnet_urgent25 BSRNN：语音增强基线模型。链接：https://huggingface.co/lichenda/icassp_2026_urgent_baseline SenSE：语音增强基线模型。链接：https://huggingface.co/ASLP-lab/SenSE BSRNN-Flow：语音增强基线模型。链接：https://huggingface.co/lichenda/icassp_2026_urgent_baseline LLaSE-G1：语音增强基线模型。链接：https://huggingface.co/ASLP-lab/LLaSE-G1 UniSE：语音增强基线模型。链接：https://huggingface.co/QuarkAudio/QuarkAudio-UniSE 🏗️ 方法概述和架构 L3-SE是一个多阶段的基于语言模型的语音增强框架，旨在通过提高条件表征的鲁棒性来减少语言幻觉。其整体流程为：带噪语音输入→NI-Encoder提取噪声不变的声学与语义表征→作为前缀输入自回归语言模型(LM)→预测干净的离散声学token序列→WavCodec解码器将token序列重建为增强后的波形。核心贡献在于NI-Encoder的学习，它通过模仿两个处理干净语音的教师模型的输出来获得噪声不变性。 ...

Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

📄 Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition #语音识别 #模型评估 #语音对话系统 #语言模型 ✅ 6.5/10 | 前25% | #语音识别 | #模型评估 | #语音对话系统 #语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Thibault Bañeras-Roux（未说明）通讯作者：未说明作者列表：Thibault Bañeras-Roux（未说明）、Mickaël Rouvier（未说明）、Jane Wottawa（未说明）、Richard Dufour（未说明） 💡 毒舌点评亮点：论文直击ASR领域过度依赖WER的痛点，提出的POSER和EmbER两个评估指标角度新颖，尝试将语法和语义维度引入误差分析，思路具有启发性。短板：摘要中仅提出了概念和指标定义，却完全没有展示任何实验设计、对比数据和结果验证，这使得其提出的指标有效性成疑，更像一篇观点性短文而非完整的研究论文。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 📌 核心摘要要解决什么问题：自动语音识别系统的评估长期依赖于单一的词错误率（WER），该指标虽简单但粗粒度，无法区分和深入分析不同类型的转录错误（如语法错误、语义偏差）。方法核心是什么：本文提出在ASR系统中，利用语言模型进行假设重打分（rescoring）步骤时，引入两个新的评估指标：1）POSER（词性错误率），衡量转录结果在词性序列层面的语法准确性；2）EmbER（嵌入错误率），通过词嵌入计算错误转录词与正确词之间的语义距离，并加权到错误率中，以衡量语义层面的保真度。与已有方法相比新在哪里：超越了纯粹基于字符串匹配的WER，首次系统性地提出将语言模型的语言学知识（语法和语义）具象化为可量化的评估指标，旨在从更深层次理解语言模型对ASR输出的优化效果。主要实验结果如何：论文中未提供具体数值。摘要仅介绍了指标的定义和理念，未报告任何实验设置、对比基线、数据集以及具体的结果数字。实际意义是什么：为ASR系统的评估和改进提供了更细粒度的诊断工具，有助于研究者理解语言模型在语音识别后处理中的具体贡献（是更正了语法还是提升了语义连贯性），从而指导更针对性的模型优化。主要局限性是什么：缺乏实验验证是最大的局限。论文摘要未呈现任何实验来证明所提指标的有效性、合理性以及它们与人类感知或下游任务性能的相关性。指标的具体计算方式（如如何聚合词嵌入距离）也未在摘要中详述。 🏗️ 模型架构论文中未提及具体模型架构。本文重点在于提出新的评估方法/指标，而非一个新的语音识别或语言模型架构。其核心是描述一种评估流程：在标准ASR流水线中，于生成转录假设之后、输出最终结果之前，加入一个语言模型重打分步骤，并用POSER和EmbER对重打分前后的结果进行质性分析。 ...