语音编解码器

📄 Reducing Linguistic Hallucination in LM-Based Speech Enhancement via Noise-Invariant Acoustic-Semantic Distillation #语音增强 #语音编解码器 #知识蒸馏 #自监督学习 #语言模型 ✅ 7.2/10 | 前25% | #语音增强 | #语音编解码器 | #知识蒸馏 #自监督学习 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Zheng Wang（南京大学）通讯作者：Jing Lu（南京大学）作者列表：Zheng Wang（南京大学）、Xiaobin Rong（南京大学）、Hang Su（MiLM Plus，小米公司）、Tianyi Tan（南京大学）、Junnan Wu（MiLM Plus，小米公司）、Lichun Fan（MiLM Plus，小米公司）、Zhenbo Luo（MiLM Plus，小米公司）、Jian Luan（MiLM Plus，小米公司）、Jing Lu（南京大学） 💡 毒舌点评本文针对基于语言模型的语音增强中“语言幻觉”问题，提出了一个声学-语义联合蒸馏框架。其核心思想清晰：通过两个专门教师模型（声学编解码器WavCodec和语义教师WavS2T）从干净语音中提取互补的表征目标，监督一个学生编码器从带噪语音中学习噪声不变的条件表征，从而提升下游语言模型生成内容的可信度。该方法在低信噪比和混响条件下效果显著，实验设计全面，特别是构建的可控模拟测试集对评估幻觉问题很有价值。然而，该框架的复杂性（依赖三个大型预训练模型）和计算成本不容忽视，论文对此的讨论不足。此外，其声学教师模型仅在英文数据上训练，限制了结论的普适性。整体而言，这是一份扎实的系统性改进，但距离可直接部署的解决方案仍有距离。 📌 核心摘要问题：基于语言模型的语音增强（LM-based SE）在严重噪声或混响条件下，常因提取的条件信息不可靠而产生“语言幻觉”——生成的语音听感自然但内容错误（如词语替换、删除）。方法核心：提出L3-SE框架，其核心是一个“噪声不变编码器”(NI-Encoder)。该编码器通过联合蒸馏两个教师模型在干净语音上学到的表征（声学教师WavCodec提供保真度目标，语义教师WavS2T提供一致性目标），从带噪语音中提取出同时具备声学保真度和语义一致性的条件表征，用于引导语言模型生成干净声学token。创新之处：与现有单方面（仅声学或仅语义）增强条件信息的方法不同，本文首次将联合噪声不变声学-语义蒸馏应用于基于语言模型的语音增强，实现了双重目标的同步优化。此外，论文设计了共享SSL骨干（WavLM）的专用教师模型，并通过可学习层权重自适应提取互补特征。实验结果：在DNS1测试集（特别是混响条件）和自建的模拟测试集（特别是低SNR条件）上，L3-SE在语言一致性指标（WER, dWER, LPS, SBS）上显著优于包括其他LM方法在内的基线，同时保持有竞争力的感知质量（DNSMOS, UTMOS）。关键数据示例见下表（摘要）。模型 DNS1 with-reverb LibriSpeech low-SNR dWER ↓ WER ↓ UniSE (LM baseline) 34.2 33.6 L3-SE 8.42 7.13 实际意义：为解决生成式语音增强中的内容忠实度问题提供了一种有效框架，提升了语音增强系统在恶劣声学环境下的可靠性，对语音通信、语音识别前端等下游应用有重要价值。主要局限性：系统复杂度高，依赖多个大型预训练模型，计算开销大；WavCodec教师仅使用英文数据训练，多语言泛化能力未验证；未探讨模型计算效率与延迟；缺乏对错误类型的细分分析。 🔗 开源详情代码：论文中未提及代码链接。论文明确指出：“The complete source code will be released after the manuscript is accepted.” 模型权重：论文中未提及。数据集： Emilia：用于训练的干净语音数据集。论文中提及使用了其英文（EN）和中文（ZH）子集，并给出了筛选条件（DNSMOS > 3.50 或 > 3.40）。未提供具体下载链接。 DNS5：噪声数据集。链接：https://dns4public.github.io/dns_4/ WHAM!：噪声数据集。链接：http://wham.wham-research.org/ FSD50K：噪声数据集。链接：https://zenodo.org/record/4060432 FMA：噪声数据集。链接：https://freemusicarchive.org/ OpenSLR26 和 OpenSLR28：房间脉冲响应（RIRs）数据集。链接：https://www.openslr.org/26/ 和 https://www.openslr.org/28/ DNS1 测试集：用于评估的标准测试集。链接：https://github.com/microsoft/DNS-Challenge LibriSpeech：用于构建模拟评估集。链接：https://huggingface.co/datasets/openslr/librispeech_asr URGENT 2025 验证集：用于构建模拟评估集的噪声片段。链接：https://github.com/sony/urgent25_challenge Demo：https://max1wz.github.io/L3-SE-Demo-Page/ 复现材料：论文在表1中提供了所有模型组件的主要训练超参数。论文在附录A中详细说明了WavCodec和WavS2T的训练目标与损失函数。论文在4.4节中提供了模型架构的实现细节，如WavCodec的编码器/解码器结构、WavS2T的Transformer层数、LM的适配器维度等。论文中引用的开源项目： WavLM：预训练语音模型，用作共享骨干网络。链接：https://huggingface.co/microsoft/wavlm-large Qwen3-0.6B：预训练文本语言模型，用于语义教师和下游LM。链接：https://huggingface.co/Qwen/Qwen3-0.6B DAC (Descript Audio Codec)：高保真音频编解码器，其训练目标被WavCodec采用。链接：https://github.com/descriptinc/descript-audio-codec Vocos：声码器模型，用于WavCodec解码器。链接：https://github.com/so-vits-svc/vocos SimCodec：基线编解码器。链接：https://huggingface.co/yaoxunji/gen-se Mimi：基线编解码器。链接：https://huggingface.co/kyutai/mimi XY-Tokenizer：基线编解码器。链接：https://huggingface.co/fdugyt/XY_Tokenizer BigCodec：基线编解码器。链接：https://huggingface.co/Alethia/BigCodec WavTokenizer：基线编解码器。链接：https://huggingface.co/novateur/WavTokenizer X-codec2：基线编解码器。链接：https://huggingface.co/HKUSTAudio/xcodec2 BiCodec：基线编解码器。链接：https://huggingface.co/SparkAudio/Spark-TTS-0.5B TF-GridNet：语音增强基线模型。链接：https://huggingface.co/kohei0209/tfgridnet_urgent25 BSRNN：语音增强基线模型。链接：https://huggingface.co/lichenda/icassp_2026_urgent_baseline SenSE：语音增强基线模型。链接：https://huggingface.co/ASLP-lab/SenSE BSRNN-Flow：语音增强基线模型。链接：https://huggingface.co/lichenda/icassp_2026_urgent_baseline LLaSE-G1：语音增强基线模型。链接：https://huggingface.co/ASLP-lab/LLaSE-G1 UniSE：语音增强基线模型。链接：https://huggingface.co/QuarkAudio/QuarkAudio-UniSE 🏗️ 方法概述和架构 L3-SE是一个多阶段的基于语言模型的语音增强框架，旨在通过提高条件表征的鲁棒性来减少语言幻觉。其整体流程为：带噪语音输入→NI-Encoder提取噪声不变的声学与语义表征→作为前缀输入自回归语言模型(LM)→预测干净的离散声学token序列→WavCodec解码器将token序列重建为增强后的波形。核心贡献在于NI-Encoder的学习，它通过模仿两个处理干净语音的教师模型的输出来获得噪声不变性。 ...

📄 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec #语音转换 #扩散模型 #零样本 #语音编解码器 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yurii Halychanskyi（University of Illinois Urbana-Champaign, The Grainger College of Engineering, Siebel School of Computing and Data Science）通讯作者：未说明作者列表：Yurii Halychanskyi（UIUC）、Cameron Churchwell（UIUC）、Yutong Wen（UIUC）、Volodymyr Kindratenko（UIUC） 💡 毒舌点评亮点在于巧妙地将扩散模型的噪声控制机制转化为口音强度的“旋钮”，首次实现了在口音转换中对“转多少”的显式、平滑控制，这对实际应用非常友好。短板是训练数据“作弊”——只用了美式英语单说话人（LJSpeech），这好比只学会了标准答案却没练习过如何修改各地“方言”作业，其面对真正多样化非母语口音时的泛化能力和适应性存疑，而论文对此缺乏深入验证。 🔗 开源详情代码：提供代码仓库链接：https://claussss.github.io/accent_control_demo/ 模型权重：论文中未提及是否公开预训练模型权重。数据集：训练集LJSpeech和评测集L2-Arctic均为公开数据集，论文中给出了使用方式。 Demo：论文提供的网站链接即为Demo页面（同上）。复现材料：提供了完整的训练细节（优化器、学习率、批大小、epoch数、硬件）、模型架构细节、预处理流程（文本归一化、音素转换、对齐工具），以及关键超参数（网络尺寸、噪声调度、推理步数）。引用的开源项目：Nvidia NeMo文本归一化、Phonemizer、Wav2Vec2 XLSR（对齐）、FACodec、Whisper（评测）、SpeechBrain/WavLM（说话人相似度评测）。 📌 核心摘要问题：现有的口音转换方法缺乏对转换强度的显式控制，难以在“更地道”和“更像本人”之间灵活权衡。方法核心：提出FAC-FACodec框架，利用FACodec将语音解耦，仅对内容（发音）潜变量zc1进行建模。在训练时，模型学习从加噪的zc1中恢复出美式英语的先验分布。在推理时，通过选择初始加噪的时间步t_start来控制转换强度：t_start越大，表示从越“混乱”的状态开始去噪，结果越偏向先验（美式发音），但可能丢失更多原始特征。创新点：这是首个提供用户可控参数来调节口音转换强度的框架；仅需目标口音（美式英语）的语音和转录文本进行训练，实现零样本转换；专注于发音层面的修改，严格保留说话人的韵律和音色。主要实验结果：在L2-Arctic数据集（6种非母语口音）上测试，随着t_start从25增至100，美式口音分类器得分（Acc）从72.22平均提升至89.86，而说话人相似度（SS）从0.97降至0.88，词错误率（WER）从0.07升至0.15，证明了转换强度与身份保留之间的可控权衡。与基线系统相比，在 t_start=100时，本方法在说话人相似度和WER上持平或更优，但在口音得分上通常低于同时重构韵律的系统。关键数据表（节选）： ...