Reducing Linguistic Hallucination in LM-Based Speech Enhancement via Noise-Invariant Acoustic-Semantic Distillation

📄 Reducing Linguistic Hallucination in LM-Based Speech Enhancement via Noise-Invariant Acoustic-Semantic Distillation #语音增强 #语音编解码器 #知识蒸馏 #自监督学习 #语言模型 ✅ 7.2/10 | 前25% | #语音增强 | #语音编解码器 | #知识蒸馏 #自监督学习 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Zheng Wang(南京大学) 通讯作者:Jing Lu(南京大学) 作者列表:Zheng Wang(南京大学)、Xiaobin Rong(南京大学)、Hang Su(MiLM Plus, 小米公司)、Tianyi Tan(南京大学)、Junnan Wu(MiLM Plus, 小米公司)、Lichun Fan(MiLM Plus, 小米公司)、Zhenbo Luo(MiLM Plus, 小米公司)、Jian Luan(MiLM Plus, 小米公司)、Jing Lu(南京大学) 💡 毒舌点评 本文针对基于语言模型的语音增强中“语言幻觉”问题,提出了一个声学-语义联合蒸馏框架。其核心思想清晰:通过两个专门教师模型(声学编解码器WavCodec和语义教师WavS2T)从干净语音中提取互补的表征目标,监督一个学生编码器从带噪语音中学习噪声不变的条件表征,从而提升下游语言模型生成内容的可信度。该方法在低信噪比和混响条件下效果显著,实验设计全面,特别是构建的可控模拟测试集对评估幻觉问题很有价值。然而,该框架的复杂性(依赖三个大型预训练模型)和计算成本不容忽视,论文对此的讨论不足。此外,其声学教师模型仅在英文数据上训练,限制了结论的普适性。整体而言,这是一份扎实的系统性改进,但距离可直接部署的解决方案仍有距离。 📌 核心摘要 问题:基于语言模型的语音增强(LM-based SE)在严重噪声或混响条件下,常因提取的条件信息不可靠而产生“语言幻觉”——生成的语音听感自然但内容错误(如词语替换、删除)。 方法核心:提出L3-SE框架,其核心是一个“噪声不变编码器”(NI-Encoder)。该编码器通过联合蒸馏两个教师模型在干净语音上学到的表征(声学教师WavCodec提供保真度目标,语义教师WavS2T提供一致性目标),从带噪语音中提取出同时具备声学保真度和语义一致性的条件表征,用于引导语言模型生成干净声学token。 创新之处:与现有单方面(仅声学或仅语义)增强条件信息的方法不同,本文首次将联合噪声不变声学-语义蒸馏应用于基于语言模型的语音增强,实现了双重目标的同步优化。此外,论文设计了共享SSL骨干(WavLM)的专用教师模型,并通过可学习层权重自适应提取互补特征。 实验结果:在DNS1测试集(特别是混响条件)和自建的模拟测试集(特别是低SNR条件)上,L3-SE在语言一致性指标(WER, dWER, LPS, SBS)上显著优于包括其他LM方法在内的基线,同时保持有竞争力的感知质量(DNSMOS, UTMOS)。关键数据示例见下表(摘要)。 模型 DNS1 with-reverb LibriSpeech low-SNR dWER ↓ WER ↓ UniSE (LM baseline) 34.2 33.6 L3-SE 8.42 7.13 实际意义:为解决生成式语音增强中的内容忠实度问题提供了一种有效框架,提升了语音增强系统在恶劣声学环境下的可靠性,对语音通信、语音识别前端等下游应用有重要价值。 主要局限性:系统复杂度高,依赖多个大型预训练模型,计算开销大;WavCodec教师仅使用英文数据训练,多语言泛化能力未验证;未探讨模型计算效率与延迟;缺乏对错误类型的细分分析。 🔗 开源详情 代码:论文中未提及代码链接。论文明确指出:“The complete source code will be released after the manuscript is accepted.” 模型权重:论文中未提及。 数据集: Emilia:用于训练的干净语音数据集。论文中提及使用了其英文(EN)和中文(ZH)子集,并给出了筛选条件(DNSMOS > 3.50 或 > 3.40)。未提供具体下载链接。 DNS5:噪声数据集。链接:https://dns4public.github.io/dns_4/ WHAM!:噪声数据集。链接:http://wham.wham-research.org/ FSD50K:噪声数据集。链接:https://zenodo.org/record/4060432 FMA:噪声数据集。链接:https://freemusicarchive.org/ OpenSLR26 和 OpenSLR28:房间脉冲响应(RIRs)数据集。链接:https://www.openslr.org/26/ 和 https://www.openslr.org/28/ DNS1 测试集:用于评估的标准测试集。链接:https://github.com/microsoft/DNS-Challenge LibriSpeech:用于构建模拟评估集。链接:https://huggingface.co/datasets/openslr/librispeech_asr URGENT 2025 验证集:用于构建模拟评估集的噪声片段。链接:https://github.com/sony/urgent25_challenge Demo:https://max1wz.github.io/L3-SE-Demo-Page/ 复现材料: 论文在表1中提供了所有模型组件的主要训练超参数。 论文在附录A中详细说明了WavCodec和WavS2T的训练目标与损失函数。 论文在4.4节中提供了模型架构的实现细节,如WavCodec的编码器/解码器结构、WavS2T的Transformer层数、LM的适配器维度等。 论文中引用的开源项目: WavLM:预训练语音模型,用作共享骨干网络。链接:https://huggingface.co/microsoft/wavlm-large Qwen3-0.6B:预训练文本语言模型,用于语义教师和下游LM。链接:https://huggingface.co/Qwen/Qwen3-0.6B DAC (Descript Audio Codec):高保真音频编解码器,其训练目标被WavCodec采用。链接:https://github.com/descriptinc/descript-audio-codec Vocos:声码器模型,用于WavCodec解码器。链接:https://github.com/so-vits-svc/vocos SimCodec:基线编解码器。链接:https://huggingface.co/yaoxunji/gen-se Mimi:基线编解码器。链接:https://huggingface.co/kyutai/mimi XY-Tokenizer:基线编解码器。链接:https://huggingface.co/fdugyt/XY_Tokenizer BigCodec:基线编解码器。链接:https://huggingface.co/Alethia/BigCodec WavTokenizer:基线编解码器。链接:https://huggingface.co/novateur/WavTokenizer X-codec2:基线编解码器。链接:https://huggingface.co/HKUSTAudio/xcodec2 BiCodec:基线编解码器。链接:https://huggingface.co/SparkAudio/Spark-TTS-0.5B TF-GridNet:语音增强基线模型。链接:https://huggingface.co/kohei0209/tfgridnet_urgent25 BSRNN:语音增强基线模型。链接:https://huggingface.co/lichenda/icassp_2026_urgent_baseline SenSE:语音增强基线模型。链接:https://huggingface.co/ASLP-lab/SenSE BSRNN-Flow:语音增强基线模型。链接:https://huggingface.co/lichenda/icassp_2026_urgent_baseline LLaSE-G1:语音增强基线模型。链接:https://huggingface.co/ASLP-lab/LLaSE-G1 UniSE:语音增强基线模型。链接:https://huggingface.co/QuarkAudio/QuarkAudio-UniSE 🏗️ 方法概述和架构 L3-SE是一个多阶段的基于语言模型的语音增强框架,旨在通过提高条件表征的鲁棒性来减少语言幻觉。其整体流程为:带噪语音输入→NI-Encoder提取噪声不变的声学与语义表征→作为前缀输入自回归语言模型(LM)→预测干净的离散声学token序列→WavCodec解码器将token序列重建为增强后的波形。核心贡献在于NI-Encoder的学习,它通过模仿两个处理干净语音的教师模型的输出来获得噪声不变性。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 753 words

Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

📄 Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition #语音识别 #模型评估 #语音对话系统 #语言模型 ✅ 6.5/10 | 前25% | #语音识别 | #模型评估 | #语音对话系统 #语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Thibault Bañeras-Roux(未说明) 通讯作者:未说明 作者列表:Thibault Bañeras-Roux(未说明)、Mickaël Rouvier(未说明)、Jane Wottawa(未说明)、Richard Dufour(未说明) 💡 毒舌点评 亮点: 论文直击ASR领域过度依赖WER的痛点,提出的POSER和EmbER两个评估指标角度新颖,尝试将语法和语义维度引入误差分析,思路具有启发性。 短板: 摘要中仅提出了概念和指标定义,却完全没有展示任何实验设计、对比数据和结果验证,这使得其提出的指标有效性成疑,更像一篇观点性短文而非完整的研究论文。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 📌 核心摘要 要解决什么问题: 自动语音识别系统的评估长期依赖于单一的词错误率(WER),该指标虽简单但粗粒度,无法区分和深入分析不同类型的转录错误(如语法错误、语义偏差)。 方法核心是什么: 本文提出在ASR系统中,利用语言模型进行假设重打分(rescoring)步骤时,引入两个新的评估指标:1)POSER(词性错误率),衡量转录结果在词性序列层面的语法准确性;2)EmbER(嵌入错误率),通过词嵌入计算错误转录词与正确词之间的语义距离,并加权到错误率中,以衡量语义层面的保真度。 与已有方法相比新在哪里: 超越了纯粹基于字符串匹配的WER,首次系统性地提出将语言模型的语言学知识(语法和语义) 具象化为可量化的评估指标,旨在从更深层次理解语言模型对ASR输出的优化效果。 主要实验结果如何: 论文中未提供具体数值。 摘要仅介绍了指标的定义和理念,未报告任何实验设置、对比基线、数据集以及具体的结果数字。 实际意义是什么: 为ASR系统的评估和改进提供了更细粒度的诊断工具,有助于研究者理解语言模型在语音识别后处理中的具体贡献(是更正了语法还是提升了语义连贯性),从而指导更针对性的模型优化。 主要局限性是什么: 缺乏实验验证是最大的局限。 论文摘要未呈现任何实验来证明所提指标的有效性、合理性以及它们与人类感知或下游任务性能的相关性。指标的具体计算方式(如如何聚合词嵌入距离)也未在摘要中详述。 🏗️ 模型架构 论文中未提及具体模型架构。 本文重点在于提出新的评估方法/指标,而非一个新的语音识别或语言模型架构。其核心是描述一种评估流程:在标准ASR流水线中,于生成转录假设之后、输出最终结果之前,加入一个语言模型重打分步骤,并用POSER和EmbER对重打分前后的结果进行质性分析。 ...

2026-05-01 · 更新于 2026-05-19 · 1 min · 139 words