HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

📄 HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding #语音合成 #语音识别 #自监督学习 #知识蒸馏 #多任务学习 #模型压缩 🔥 8.6/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #知识蒸馏 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu. 机构: 1. 上海交通大学 X-LANCE 实验室;2. 小红书 Hi-lab。 ...

2026-05-29 · 更新于 2026-06-12 · 4 min · 673 words

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition

📄 State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition #语音情感识别 #多模态模型 #知识蒸馏 🔥 8/10 | 前50% | #语音情感识别 | #知识蒸馏 | #多模态模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Zhaoyan Pan, Xiangdong Li, Wenke Wu*, Mengting Ma, Ye Lou, Ji Zhou, Jiatong Pan, Wei Zhang† 机构:1 浙江大学软件技术学院,2 浙江大学计算机科学与技术学院 表示同等贡献,† 表示通讯作者。 💡 毒舌点评 这篇论文的工作是扎实的,但包装得过于完美,以至于一些内在的脆弱性被精心掩盖了。作者提出的“高斯启发状态”像是在概率模型和确定性匹配之间走钢丝,理论根基略显模糊。NCE组件用batch内的“捐赠者”来模拟现实世界中复杂多变的非语言冲突,这种简化虽然聪明,但也像是在用理想化的实验室条件去预测混沌的真实对话场景。整篇论文的“贡献”部分像一份完美的产品说明书,但审稿人需要的是对科学发现本质的探讨,而不仅仅是功能的罗列。实验很全面,但当一个方法在所有指标上都“显著”优于基线时,我们更应该警惕这是否是实验设计或评估指标本身的局限,而非方法的绝对优越性。成本效益分析的缺失也让人质疑,在资源敏感的应用中,这额外的183%训练成本是否真的值得。 📌 核心摘要 本文针对对话多模态情感识别(MER)在模态缺失或不可靠场景下的鲁棒性问题,提出了一个名为CoRe-KD(完整视图参考引导的知识蒸馏)的新框架。核心思想是避免对缺失模态进行直接重建,而是利用一个在完整视图数据上训练并冻结的教师模型,为学生模型提供结构化的参考信号。该框架包含两个关键组件:1)完整视图状态锚定(CSA),通过预测层、融合状态层和模态特定状态层三个层级的对齐,将学生模型的不完整视图预测和状态与教师参考进行匹配;2)非语言冲突暴露(NCE),在训练时构造保持目标标签但替换非语言模态的冲突视图,以增强模型对误导性非语言线索的鲁棒性。在IEMOCAP(4类和6类)、MELD-7数据集上的实验,以及CMU-MOSEI上的补充检查表明,CoRe-KD在固定缺失和随机缺失协议下均显著优于现有的重建、蒸馏和适配等基线方法。消融研究验证了CSA和NCE各组件的贡献。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文使用了以下公开基准数据集,并说明了获取方式: IEMOCAP:通过官方申请程序获取,仅用于许可的学术研究。链接:https://www.sci.usc.edu/software/iemocap/ MELD:公开发布的研究基准。链接:https://github.com/declare-lab/MELD CMU-MOSEI:公开发布的研究基准。链接:https://github.com/CMU-MultiComp/CMU-MultimodalSDK Demo:论文中未提及。 复现材料:论文在附录中提供了详细的复现信息,包括: 实验设置与协议:详见附录A,包括数据集划分(表A.1)、特征维度(表A.2)、缺失模态评估协议、训练视角构建和非冲突视角构建。 超参数与优化:详见附录A.6,优化器为Adam,学习率为\(1e-5\),权重衰减\(1e-5\),批大小16。IEMOCAP和MELD训练150个epoch,CMU-MOSEI训练100个epoch。KD温度\(\tau=2\),损失权重\(\lambda_{\text{kd}}=1.0, \lambda_{\text{state}}=0.5, \lambda_{\text{mstate}}=0.5, \lambda_{\text{NCE}}=1.0\)。NCE视角采样概率为0.2。 教师模型架构:详见附录C,包括完整的Transformer编码器结构、高斯启发状态头实现(式C.1-C.12)和PoE融合公式。 基线公平性控制:详见附录B,说明了复现设置、特征和教师控制以及训练稳定性(表B.1)。 硬件环境:所有实验在四块NVIDIA RTX A5000 24GB GPU上运行。 推理:推理时仅使用学生模型,教师模型和训练组件被丢弃。 论文中引用的开源项目: openSMILE:用于提取声学特征。论文链接:https://ieeexplore.ieee.org/document/5745357 RoBERTa:用于提取文本特征。论文链接:https://arxiv.org/abs/1907.11692 DenseNet:用于提取视觉特征。论文链接:https://arxiv.org/abs/1608.06993 data2vec:用于MELD声学特征提取。论文链接:https://arxiv.org/abs/2202.03555 TimeSformer:用于MELD视觉特征提取。论文链接:https://arxiv.org/abs/2102.05095 Wav2Vec:用于CMU-MOSEI声学特征提取。论文链接:https://arxiv.org/abs/2006.11477 DeBERTa:用于CMU-MOSEI文本特征提取。论文链接:https://arxiv.org/abs/2006.03650 MA-Net:用于CMU-MOSEI视觉特征提取。论文链接:https://arxiv.org/abs/2104.14200 MulT:作为教师骨架之一。论文链接:https://arxiv.org/abs/1905.09283 MISA:作为教师骨架之一。论文链接:https://arxiv.org/abs/2002.09854 Corr-KD:作为对比基线。论文链接:https://arxiv.org/abs/2405.11685 MoMKE:作为对比基线。论文链接:https://arxiv.org/abs/2401.11938 MCULoRA:作为对比基线。论文链接:https://arxiv.org/abs/2502.13076 ComP:作为对比基线。论文链接:https://arxiv.org/abs/2506.01573 IMDer:作为对比基线。论文链接:https://arxiv.org/abs/2312.15040 LNLN:作为对比基线。论文链接:https://arxiv.org/abs/2407.01474 🏗️ 方法概述和架构 本文提出的CoRe-KD框架采用教师-学生架构进行训练,旨在提升对话多模态情感识别模型在模态缺失条件下的鲁棒性。其核心流程与组件如下: ...

2026-05-29 · 更新于 2026-06-12 · 5 min · 986 words

OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation

📄 OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation #音频检索 #对比学习 #知识蒸馏 #参数高效微调 🔥 9.2/10 | 前25% | #音频检索 | #对比学习 | #知识蒸馏 #参数高效微调 | arxiv 学术质量 6.1/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者: Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen 机构: Memories.ai Research 💡 毒舌点评 优点:论文精准地指出了一个实际存在但被忽视的问题——统一AVT编码器的联合嵌入\(z_{TVA}\)在训练中未被监督。提出的“融合即教师蒸馏”方法简洁、直观且有效,尤其是\(\mathcal{L}_D\)损失贡献巨大。构建的OmniRetriever-Bench基准填补了评估多模态查询方向的关键空白,对社区有明确贡献。实验设计周密,包括了跨骨干验证、损失权重敏感性分析等,增强了结论的说服力。 缺点:论文在视频-文本任务上并未达到顶尖水平,其主要优势局限于音频相关的检索方向。方法的核心创新在于损失函数的设计,架构上是基于现有骨干(WAVE-7B)的适配器微调,新颖性更多体现在训练范式而非网络结构。提出的新基准测试(OmniRetriever-Bench)仅提供标识符和字幕,未公开媒体文件,限制了其广泛使用和独立验证。部分技术细节,如模态轮换硬负例的具体实现逻辑,描述可进一步清晰化。此外,虽然方法通用,但对语音/音乐领域的直接贡献(如理解语音内容、音乐情感)有限,其影响力更偏向于通用的多模态表示学习。 📌 核心摘要 本文针对现有统一音频-视频-文本(AVT)编码器训练中联合嵌入\(z_{TVA}\)未被监督的关键缺陷,提出了“融合即教师蒸馏”(Fusion-as-Teacher Distillation)训练范式。该方法利用模型自身前向传播产生的、经停止梯度处理的联合嵌入\(z_{TVA}\)作为教师信号,通过InfoNCE损失() \mathcal{L}_D \()指导单模态嵌入(\(z_T, z_V, z_A\))的学习。同时,引入Tuple-InfoNCE损失() \mathcal{L}_T \()配合模态轮换的硬负例,直接监督联合嵌入\(z_{TVA}\),防止其退化。该方法在开源WAVE-7B骨干上实例化为OmniRetriever-7B模型。在六个零样本检索基准测试中,OmniRetriever-7B在Clotho和SoundDescs音频-文本检索任务上显著超越闭源Gemini Embedding 2(R@1提升13.3-18.0),并接近专门音频-文本检索模型(CLAP家族)水平。论文同时发布了首个覆盖全部12个音频-视频-文本检索方向的评估基准OmniRetriever-Bench,并在该基准上取得了SOTA结果。 🔗 开源详情 代码:论文摘要和结论声明将发布代码,但未提供具体链接。 模型权重:论文摘要和结论声明将发布模型权重,但未提供具体链接(如HuggingFace, ModelScope)。 数据集: 训练数据集:论文提及训练数据由以下公开数据集采样构成,且不重新分发训练子集: InternVid (链接) InternVid-FLT (链接) Panda-70M (项目页面) PVD (链接) 另有一小部分内部收集数据。 评估基准:论文发布OmniRetriever-Bench,包含3,782个经人工校对的三元组。发布时将提供评估流程、字幕文本、源视频标识符和片段区间,但不重新分发底层媒体文件。 复现材料:论文在附录中提供了极其详尽的复现信息,包括但不限于: 附录A & B:骨干架构、LoRA配置、所有训练超参数。 附录C:端到端推理延迟。 附录D:损失权重敏感性分析。 附录E:训练语料描述与统计。 附录F & H:OmniRetriever-Bench构建方法、许可证与统计。 附录G:后处理压缩分析。 附录I:外部基准完整结果。 附录J:OmniRetriever-Bench方向消融分析。 附录L:Omni-Embed-Nemotron-3B跨骨干验证。 附录M:字幕改写鲁棒性分析。 附录N:\(\mathcal{L}_T\)种子稳定性分析。 论文中引用的关键开源项目:CLIP, ImageBind, LanguageBind, WAVE, Omni-Embed-Nemotron, SigLIP/SigLIP-2, Whisper, BEATs, CLAP (多种), InternVideo2, LoRA, DeepSpeed。 🏗️ 方法概述和架构 OmniRetriever的核心是一个统一的AVT嵌入器\(f_\theta\),它能够分别处理文本(T)、视频(V)、音频(A)单模态输入,生成对应嵌入\(z_T, z_V, z_A\),并能同时处理三元组输入,生成联合嵌入\(z_{TVA}\)。其训练目标由三个损失函数构成: ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 296 words

S2Accompanist: A Semantic-Aware and Structure-Guided Diffusion Model for Music Accompaniment Generation

📄 S2Accompanist: A Semantic-Aware and Structure-Guided Diffusion Model for Music Accompaniment Generation #音乐生成 #扩散模型 #系统工程 #数据处理 #知识蒸馏 #音乐结构分析 #挑战赛 📝 5.6/10 | 前50% | #音乐生成 | #系统工程 | #扩散模型 #数据处理 | arxiv 学术质量 4.8/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Huakang Chen, Wenkai Cheng (论文中标注为同等贡献) 通讯作者:Lei Xie† (论文中标注为通讯作者) 作者列表:Huakang Chen (1), Wenkai Cheng (1), Guobin Ma (1), Chunbo Hao (1), Yuxuan Xia (1), Mengqi Wei (1), Zhixian Zhao (1), Pengcheng Zhu (2), Hanbing Zhang (2), Lei Xie (1),† 机构信息:论文中仅以数字标注,未在作者列表下方明确给出具体机构名称。根据论文内容推测,数字“1”对应Xie Lei团队所在单位,数字“2”对应Zhu Pengcheng和Zhang Hanbing所在单位。具体机构名称(如大学、实验室)在论文正文中未说明。 💡 毒舌点评 这篇论文是典型的“挑战赛驱动型”工作,其核心价值在于展示了在ICME2026 ATTM Grand Challenge的严格约束下(仅限MTG-Jamendo数据集,模型参数≤500M),通过一套精心设计但高度工程化的“数据炼金”流程(混音结构辅助切分 + Gemini标注 + 双指标筛选)和模型微调策略(LeadSheet蒸馏进VAE),能够取得客观指标上的领先。然而,论文的学术贡献被其工程属性严重稀释:1) 方法高度依赖一系列未详述配置的外部黑盒工具(Gemini, SheetStage, Demucs),其稳健性和误差传播未被分析;2) 核心的“语义感知”效果缺乏深入的音乐学验证,仅靠MOS和CCS这些浅层指标难以服众;3) 声称的“效率”仅指推理时的模型参数量,却忽略了构建其复杂数据管道所需的巨额前期计算开销。整体而言,这是一个在特定比赛规则下成功的“系统集成”案例,但作为一篇独立的学术论文,其创新深度、实验严谨性和结论泛化性均显不足。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 552 words

Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation

📄 Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation #语音识别 #知识蒸馏 #多语言 #低资源 #伪标签 ✅ 6.2/10 | 前50% | #语音识别 | #知识蒸馏 | #多语言 #低资源 | arxiv 学术质量 4.7/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Sewade Ogun 通讯作者:未明确说明(论文仅提供第一作者邮箱) 作者列表:Sewade Ogun 💡 毒舌点评 这篇论文是一项扎实的工程集成工作,为尼日利亚低资源语言构建了一套完整的多语言ASR训练流水线,并开源了模型。其最大价值在于填补了该领域缺乏专用开源基础模型的空白,并通过详尽的工程优化(如伪标签生成流水线、皮钦语文本归一化)取得了优于现有基线的性能。然而,核心方法(知识蒸馏+伪标签迭代)是已有技术的直接应用,缺乏架构或算法层面的创新。对于顶会而言,其贡献更偏向于系统集成与数据处理,而非方法论上的突破。 📌 核心摘要 问题:现有支持尼日利亚语言(约鲁巴语、豪萨语、伊博语、尼日利亚皮钦语、尼日利亚英语)的多语言ASR系统性能落后于高资源语言,主要挑战包括数据稀缺、不规则正字法、声调变音符号、语码转换及本地命名实体。 方法核心:提出一个两阶段多语言ASR框架。第一阶段,利用多个现有的单语教师模型,通过带N-gram语言模型融合的CTC解码生成伪标签,结合少量人工标注数据,通过知识蒸馏训练一个统一的多语言学生模型(SBPN)。第二阶段,使用训练好的学生模型对未标注数据生成更优伪标签,经置信度过滤后进行迭代自训练。 与已有方法相比的新颖性:论文未提出新的模型架构或训练算法。其新颖性在于系统性地集成并优化了现有技术(知识蒸馏、大规模伪标签生成、针对特定语言的文本归一化、轻量化模型设计),专门解决尼日利亚语言ASR的独特挑战,是一个针对特定语言群组的工程化解决方案。 主要实验结果: SBPN-Large在Fleurs测试集上相对于单语教师模型实现了平均29%的相对WER降低。 SBPN-Base(120M参数)在Common Voice测试集上平均WER为25.53%,显著优于同量级基线AfriHuBERT(64.27%)和mHuBERT-147(69.53%)。 SBPN-Large(600M参数)在Fleurs测试集上平均WER为32.72%,优于参数量更大的MMS-1B(41.23%)和Whisper Large(116.46%)。 模型对语速变化表现出更强的鲁棒性(图3)。 模型在语言识别任务上也表现出色(表6)。 实际意义:提供了首个专门为尼日利亚主要语言构建的开源多语言基础ASR模型(SBPN),降低了该领域研究和应用的门槛,有助于数字鸿沟的弥合和语言保护。 主要局限性:对于含声调变音符号的语言(如约鲁巴语),模型在正确预测变音符号方面仍有较大提升空间(图4);论文坦承生成式纠错(GEC)方法引入了幻觉;主要创新在于系统集成而非方法论突破;未充分测试模型处理语码转换的能力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重: SBPN-Base checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_base SBPN-Large checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_large 单语教师模型 (Hausa): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-hausa_579_993h_yourtts 单语教师模型 (Igbo): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-igbo_naijavoices_500h 单语教师模型 (Yorùbá): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_500h 单语教师模型 (Nigerian Pidgin): https://huggingface.co/asr-nigerian-pidgin/pidgin-wav2vec2-xlsr53 SBPN-Base 预训练权重:https://huggingface.co/nvidia/parakeet-tdt_ctc-110m 数据集: Common Voice (https://commonvoice.mozilla.org/) Naijavoice dataset (论文中未提供链接,仅提及数据集名和出处) Fleurs (https://huggingface.co/datasets/google/fleurs) SLR86 (https://www.openslr.org/86/) BibleTTS (论文中未提供链接,仅提及数据集名和出处) Igbo-asr (https://www.kaggle.com/code/jameskaile/igbo-asr/input) Nigerian pidgin dataset (论文中未提供链接,仅提及数据集名和出处) Afrispeech-200 (论文中未提供链接,仅提及数据集名和出处) Gigaspeech (https://github.com/Speechcolab/gigaspeech) 未标注数据集:约10000小时,来源于尼日利亚广播、在线音频平台和免费播客,论文中未提供获取链接。 Demo:论文中未提及。 复现材料: 模型超参数详情见论文附录 C。 用于尼日利亚皮钦英语文本规范化的同音词列表见论文附录 A 和 B。 训练细节:使用 NeMo 语音工具包,采用 AdamW 优化器,进行 SpecAugment、噪声添加、时间拉伸等数据增强。 论文中引用的开源项目: NeMo (https://github.com/NVIDIA/NeMo) KenLM (https://github.com/kpu/kenlm) MossFormer2 (论文中未提供链接,仅提及论文) Pyannote speaker diarization toolkit (https://github.com/pyannote/pyannote-audio) Silero VAD (https://github.com/snakers4/silero-vad) VoxLingua107-ECAPA (https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa) AfroLID (论文中未提供链接,仅提及论文) Flashlight decoder (https://github.com/flashlight/flashlight) pyctcdecode (https://github.com/kensho-technologies/pyctcdecode) PyTSMod (https://github.com/KAIST-MACLab/PyTSMod) MUSAN dataset (论文中未提供链接,仅提及论文) Text processing tool (论文中未提供链接,仅提及论文) 🏗️ 方法概述和架构 本文的SBPN框架是一个端到端的多语言ASR系统构建流程,其核心是通过知识蒸馏将多个单语教师模型的能力融合到一个统一的多语言学生模型中,并利用伪标签进行迭代自改进。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 482 words

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

📄 AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling #音频编码 #语音情感识别 #知识蒸馏 #对比学习 #多任务学习 ✅ 7.0/10 | 前25% | #音频编码 | #知识蒸馏 | #语音情感识别 #对比学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未明确指定(根据邮箱推测为Ye Gao,但论文未明确标注) 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Xinyuan Song(Emory University)、Y. Alicia Hong(George Mason University)、Yanfu Zhang(College of William & Mary)、Ye Gao(College of William & Mary) 💡 毒舌点评 亮点:论文明确将“情感保留”从下游评估指标提升为编解码器训练的核心优化目标,这一问题重新定义和建模思路(三阶段框架)具有清晰的学术贡献和实用价值。短板:框架整体是多个成熟技术(交叉注意力、关系蒸馏、对齐损失)的工程化组合,对“情感”这一模糊概念的建模仍高度依赖外部冻结模型,创新深度有限。此外,论文未深入讨论计算效率的权衡。 ...

2026-05-13 · 更新于 2026-06-12 · 3 min · 578 words

Evaluating the Expressive Appropriateness of Speech in Rich Contexts

📄 Evaluating the Expressive Appropriateness of Speech in Rich Contexts #语音质量评估 #语音大模型 #强化学习 #知识蒸馏 #基准测试 ✅ 7.2/10 | 前25% | #语音质量评估 | #强化学习 | #语音大模型 #知识蒸馏 | arxiv 学术质量 7.2/8 | 影响力 1.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tianrui Wang(天津大学,南洋理工大学联合培养) 通讯作者:Longbiao Wang(天津大学)和 Xiaobao Wang(天津大学) 作者列表:Tianrui Wang (天津大学, NTU), Ziyang Ma (上海交大, NTU), Yizhou Peng (NTU), Haoyu Wang (天津大学), Zhikang Niu (上海交大), Zikang Huang (天津大学), Yihao Wu (NTU), Yi-Wen Chao (NTU), Yu Jiang (天津大学), Yuheng Lu (天津大学), Guanrou Yang (上海交大), Xuanchen Li (天津大学), Hexin Liu (NTU), Chunyu Qiang (天津大学, 快手), Cheng Gong (TeleAI, 中国电信), Yifan Yang (上海交大), Tianchi Liu (新加坡国立大学), Junyu Wang (天津大学), Nana Hou (NTU), Meng Ge (天津大学), Fuming You (腾讯), Wei Yang (腾讯), Zhongqian Sun (腾讯), Haifeng Hu (腾讯), Xiaobao Wang (天津大学), Eng Siong Chng (NTU), Xie Chen (上海交大), Longbiao Wang (天津大学), Jianwu Dang (天津大学) 💡 毒舌点评 本文最扎实的贡献在于明确提出了“语境丰富性下的表达适当性”这一被忽视的评估任务,并构建了首个高质量中文有声书数据集。然而,其方法论的核心创新——规划器-判断器解耦、注意力偏置等——更多是对现有技术的精巧组合与工程优化,而非提出全新的基础模型或训练范式。此外,评估仅限于中文,其普适性有待验证。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 633 words

Reducing Linguistic Hallucination in LM-Based Speech Enhancement via Noise-Invariant Acoustic-Semantic Distillation

📄 Reducing Linguistic Hallucination in LM-Based Speech Enhancement via Noise-Invariant Acoustic-Semantic Distillation #语音增强 #语音编解码器 #知识蒸馏 #自监督学习 #语言模型 ✅ 7.2/10 | 前25% | #语音增强 | #语音编解码器 | #知识蒸馏 #自监督学习 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Zheng Wang(南京大学) 通讯作者:Jing Lu(南京大学) 作者列表:Zheng Wang(南京大学)、Xiaobin Rong(南京大学)、Hang Su(MiLM Plus, 小米公司)、Tianyi Tan(南京大学)、Junnan Wu(MiLM Plus, 小米公司)、Lichun Fan(MiLM Plus, 小米公司)、Zhenbo Luo(MiLM Plus, 小米公司)、Jian Luan(MiLM Plus, 小米公司)、Jing Lu(南京大学) 💡 毒舌点评 本文针对基于语言模型的语音增强中“语言幻觉”问题,提出了一个声学-语义联合蒸馏框架。其核心思想清晰:通过两个专门教师模型(声学编解码器WavCodec和语义教师WavS2T)从干净语音中提取互补的表征目标,监督一个学生编码器从带噪语音中学习噪声不变的条件表征,从而提升下游语言模型生成内容的可信度。该方法在低信噪比和混响条件下效果显著,实验设计全面,特别是构建的可控模拟测试集对评估幻觉问题很有价值。然而,该框架的复杂性(依赖三个大型预训练模型)和计算成本不容忽视,论文对此的讨论不足。此外,其声学教师模型仅在英文数据上训练,限制了结论的普适性。整体而言,这是一份扎实的系统性改进,但距离可直接部署的解决方案仍有距离。 📌 核心摘要 问题:基于语言模型的语音增强(LM-based SE)在严重噪声或混响条件下,常因提取的条件信息不可靠而产生“语言幻觉”——生成的语音听感自然但内容错误(如词语替换、删除)。 方法核心:提出L3-SE框架,其核心是一个“噪声不变编码器”(NI-Encoder)。该编码器通过联合蒸馏两个教师模型在干净语音上学到的表征(声学教师WavCodec提供保真度目标,语义教师WavS2T提供一致性目标),从带噪语音中提取出同时具备声学保真度和语义一致性的条件表征,用于引导语言模型生成干净声学token。 创新之处:与现有单方面(仅声学或仅语义)增强条件信息的方法不同,本文首次将联合噪声不变声学-语义蒸馏应用于基于语言模型的语音增强,实现了双重目标的同步优化。此外,论文设计了共享SSL骨干(WavLM)的专用教师模型,并通过可学习层权重自适应提取互补特征。 实验结果:在DNS1测试集(特别是混响条件)和自建的模拟测试集(特别是低SNR条件)上,L3-SE在语言一致性指标(WER, dWER, LPS, SBS)上显著优于包括其他LM方法在内的基线,同时保持有竞争力的感知质量(DNSMOS, UTMOS)。关键数据示例见下表(摘要)。 模型 DNS1 with-reverb LibriSpeech low-SNR dWER ↓ WER ↓ UniSE (LM baseline) 34.2 33.6 L3-SE 8.42 7.13 实际意义:为解决生成式语音增强中的内容忠实度问题提供了一种有效框架,提升了语音增强系统在恶劣声学环境下的可靠性,对语音通信、语音识别前端等下游应用有重要价值。 主要局限性:系统复杂度高,依赖多个大型预训练模型,计算开销大;WavCodec教师仅使用英文数据训练,多语言泛化能力未验证;未探讨模型计算效率与延迟;缺乏对错误类型的细分分析。 🔗 开源详情 代码:论文中未提及代码链接。论文明确指出:“The complete source code will be released after the manuscript is accepted.” 模型权重:论文中未提及。 数据集: Emilia:用于训练的干净语音数据集。论文中提及使用了其英文(EN)和中文(ZH)子集,并给出了筛选条件(DNSMOS > 3.50 或 > 3.40)。未提供具体下载链接。 DNS5:噪声数据集。链接:https://dns4public.github.io/dns_4/ WHAM!:噪声数据集。链接:http://wham.wham-research.org/ FSD50K:噪声数据集。链接:https://zenodo.org/record/4060432 FMA:噪声数据集。链接:https://freemusicarchive.org/ OpenSLR26 和 OpenSLR28:房间脉冲响应(RIRs)数据集。链接:https://www.openslr.org/26/ 和 https://www.openslr.org/28/ DNS1 测试集:用于评估的标准测试集。链接:https://github.com/microsoft/DNS-Challenge LibriSpeech:用于构建模拟评估集。链接:https://huggingface.co/datasets/openslr/librispeech_asr URGENT 2025 验证集:用于构建模拟评估集的噪声片段。链接:https://github.com/sony/urgent25_challenge Demo:https://max1wz.github.io/L3-SE-Demo-Page/ 复现材料: 论文在表1中提供了所有模型组件的主要训练超参数。 论文在附录A中详细说明了WavCodec和WavS2T的训练目标与损失函数。 论文在4.4节中提供了模型架构的实现细节,如WavCodec的编码器/解码器结构、WavS2T的Transformer层数、LM的适配器维度等。 论文中引用的开源项目: WavLM:预训练语音模型,用作共享骨干网络。链接:https://huggingface.co/microsoft/wavlm-large Qwen3-0.6B:预训练文本语言模型,用于语义教师和下游LM。链接:https://huggingface.co/Qwen/Qwen3-0.6B DAC (Descript Audio Codec):高保真音频编解码器,其训练目标被WavCodec采用。链接:https://github.com/descriptinc/descript-audio-codec Vocos:声码器模型,用于WavCodec解码器。链接:https://github.com/so-vits-svc/vocos SimCodec:基线编解码器。链接:https://huggingface.co/yaoxunji/gen-se Mimi:基线编解码器。链接:https://huggingface.co/kyutai/mimi XY-Tokenizer:基线编解码器。链接:https://huggingface.co/fdugyt/XY_Tokenizer BigCodec:基线编解码器。链接:https://huggingface.co/Alethia/BigCodec WavTokenizer:基线编解码器。链接:https://huggingface.co/novateur/WavTokenizer X-codec2:基线编解码器。链接:https://huggingface.co/HKUSTAudio/xcodec2 BiCodec:基线编解码器。链接:https://huggingface.co/SparkAudio/Spark-TTS-0.5B TF-GridNet:语音增强基线模型。链接:https://huggingface.co/kohei0209/tfgridnet_urgent25 BSRNN:语音增强基线模型。链接:https://huggingface.co/lichenda/icassp_2026_urgent_baseline SenSE:语音增强基线模型。链接:https://huggingface.co/ASLP-lab/SenSE BSRNN-Flow:语音增强基线模型。链接:https://huggingface.co/lichenda/icassp_2026_urgent_baseline LLaSE-G1:语音增强基线模型。链接:https://huggingface.co/ASLP-lab/LLaSE-G1 UniSE:语音增强基线模型。链接:https://huggingface.co/QuarkAudio/QuarkAudio-UniSE 🏗️ 方法概述和架构 L3-SE是一个多阶段的基于语言模型的语音增强框架,旨在通过提高条件表征的鲁棒性来减少语言幻觉。其整体流程为:带噪语音输入→NI-Encoder提取噪声不变的声学与语义表征→作为前缀输入自回归语言模型(LM)→预测干净的离散声学token序列→WavCodec解码器将token序列重建为增强后的波形。核心贡献在于NI-Encoder的学习,它通过模仿两个处理干净语音的教师模型的输出来获得噪声不变性。 ...

2026-05-12 · 更新于 2026-06-12 · 4 min · 753 words

Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM

📄 Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM #语音大模型 #知识蒸馏 #语音情感识别 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音大模型 | #知识蒸馏 | #语音情感识别 #预训练 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Wenqian Cui(香港中文大学) 通讯作者:Irwin King(香港中文大学) 作者列表:Wenqian Cui(香港中文大学)、Xiao-Hui Li(华为技术有限公司)、Daxin Tan(华为技术有限公司)、Qiyong Zheng(香港中文大学)、Irwin King(香港中文大学) 💡 毒舌点评 亮点:论文精准地指出了当前语音大模型(SLM)性能瓶颈的关键在于“输入侧”,并提出了“让你的语音LLM变成韵律感知的文本LLM”这一极具启发性的解决方案。实验数据证明该思路在大幅降低模态差距的同时异常高效(仅需约1000小时音频训练LLM部分),且在韵律理解上达到了SOTA水平。其设计哲学(使语音输入尽可能贴近文本LLM的原生输入)清晰且有效。短板:工作明确止步于文本输出理解,未构建包含语音合成的完整交互系统进行端到端评估。其韵律表示学习方式(依赖于Mel重建目标)的有效性边界和与更优表示方法的对比有待进一步探索。此外,论文未提供代码或模型,限制了即时复现。 📌 核心摘要 解决的问题:语音大模型(SLM)尽管基于强大的文本大模型(TLM)构建,但在语音问答等任务上的性能与TLM存在显著的“模态差距”,这限制了其实际应用。 方法核心:提出TextPro-SLM,核心思想是从输入侧入手,让语音输入更贴近“韵律感知的文本LLM”的输入形式。它包含两部分:WhisperPro语音编码器(输出同步的文本token和韵律嵌入)和Prosody-Aware LLM主干(通过知识蒸馏保留语义能力,并学习理解韵律)。 与已有方法新在何处:现有工作主要从输出侧(如生成更文本化的语音、分离生成器)来缩小差距,但效果有限。本文首次系统性地从输入表示入手,将语音显式分解为“说什么”(文本)和“怎么说”(韵律),并以TLM兼容的方式注入LLM,从而最小化差距。 主要实验结果:TextPro-SLM在3B和7B参数规模下,均在多个问答基准上取得了最低的平均模态差距。例如,TextPro-SLM-7B的平均差距仅为0.7%,远优于SALAD的7.1%和Qwen2.5-Omni的3.1%。在需要推理的数学任务(VoxEval)上,其模态差距优势更明显。同时,在情感识别、性别、年龄、口音等韵律理解任务上也达到了最佳性能(平均64.8%)。关键的是,其LLM部分训练仅需约1000小时音频,数据效率极高。 实际意义:证明了通过优化输入表示来对齐语音和文本模型是一条高效且效果显著的路径,为构建更强大、实用的语音交互系统提供了新的设计范式。 主要局限性:未包含语音合成模块,因此无法进行端到端的语音对话评估;其韵律表示学习方法和输入注入策略的有效性边界尚未完全探明;未在流式处理或非语音音频场景下进行验证。 方法概述和架构 本文的核心方法TextPro-SLM是一个旨在从输入侧最小化语音-文本模态差距的端到端语音理解系统。其设计哲学是让语音输入在LLM看来,尽可能接近其原生处理的文本输入,同时保留关键的副语言信息。 ...

2026-05-08 · 更新于 2026-06-12 · 7 min · 1464 words

Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

📄 Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition #语音情感识别 #多模态模型 #对比学习 #知识蒸馏 #缺失模态处理 🔥 8.0/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yan Zhuang(电子科技大学) 通讯作者:Jiawen Deng(电子科技大学),Fuji Ren(电子科技大学、深圳先进技术研究院) 作者列表:Yan Zhuang(电子科技大学)、Minhao Liu(电子科技大学,深圳先进技术研究院)、Yanru Zhang(电子科技大学,深圳先进技术研究院)、Jiawen Deng(电子科技大学)、Fuji Ren(电子科技大学,深圳先进技术研究院) 💡 毒舌点评 论文的亮点在于将“模态缺失”问题转化为“表示一致性”问题,并设计了优雅的对比学习机制(MCB-CL)来显式地对齐“相同语义、相同模态组合”的样本,直击现有方法痛点。然而,论文声称解决了“跨模态组合不一致”(如图1b),但SUGR模块主要处理的是“预测不确定性”,通过不确定性差异动态调整损失权重,其作用是让模型更关注那些因缺失导致预测变差的样本,而非在表示空间中直接约束同一语义在不同模态组合下的对齐,这部分论证略显间接;此外,方法高度依赖教师模型,在教师本身存在语言偏见时,学生模型的“鲁棒性”可能部分源于对偏见的抑制(如附录A.5.8所示),而非纯粹的多模态融合能力提升。 📌 核心摘要 要解决什么问题:多模态情感识别(MER)在实际场景中面临模态缺失与异构性问题,导致同一情感语义在不同可用模态组合下产生表示不一致和预测不稳定(图1展示了组内与跨组不一致现象)。 方法核心是什么:提出了MCUR框架,它是一个基于知识蒸馏的两阶段端到端框架。其核心包含两个模块:(1)模态组合与类别联合对比学习(MCB-CL),通过贝叶斯分解引入对比损失,鼓励相同情感类别且相同模态组合的样本在表示空间中聚集;(2)样本级不确定性引导正则化(SUGR),通过计算教师与学生模型预测的不确定性差异,动态调整任务损失和蒸馏损失的权重,使模型更关注不确定性高的样本。 与已有方法相比新在哪里:不同于以往侧重模态重建或笼统知识蒸馏的方法,MCUR将问题聚焦于表示空间结构的约束。MCB-CL显式地将模态组合(c_i)信息引入对比学习目标,实现了更细粒度的监督;SUGR则利用不确定性差异进行自适应样本加权,而非对所有缺失场景一视同仁。 主要实验结果如何:在MOSI、MOSEI、IEMOCAP三个基准数据集上,MCUR在14种模态缺失场景(7种固定缺失,7种随机缺失)的平均性能均优于基线方法。平均F1分数提升显著:在MOSI上提升2.2%,MOSEI上提升2.67%,IEMOCAP上提升4.37%。消融实验表明,移除MCB-CL或SUGR模块中的不确定性项会导致平均ACC和F1下降超过1个点。不确定性分析(图3)显示,加入MCB-CL能有效降低预测的Brier分数和NLL,尤其在模态表征较弱的场景下(如仅V、A输入)。 实际意义是什么:该工作提升了MER系统在模态部分缺失或不可靠时的鲁棒性和预测稳定性,使其更适用于真实世界的动态、异构环境(如用户设备差异、传感器临时失效)。 主要局限性是什么:实验基于对缺失模态的模拟(随机丢弃),可能与真实世界中模态降质或丢失的复杂性存在差距;方法依赖一个预先训练好的教师模型,增加了训练成本和部署复杂度;在极端缺失(高缺失率)或噪声与缺失并存的场景下,鲁棒性有待进一步验证(论文在附录A.5.6中进行了初步验证)。 🔗 开源详情 代码:论文中未提及代码链接(论文中多次提到“使用官方实现”或“重新实现”其他方法,但未提供作者自己方法“MCUR”的代码仓库地址)。 模型权重:论文中未提及(未提供预训练模型或检查点的下载链接)。 数据集:论文中使用了三个公开的多模态情感识别数据集,但未提供具体获取链接。论文中提及的数据集名称及通常获取方式如下: MOSI 数据集:常通过 CMU-Multimodal SDK 获取。 MOSEI 数据集:常通过 CMU-Multimodal SDK 获取。 IEMOCAP 数据集:需通过其官网 USC IEMOCAP 申请获取。 Demo:论文中未提及。 复现材料:论文在附录 A.2 “Additional Implementation Details” 中提供了详细的复现信息,包括: 训练配置:使用了 AdamW 和 Adam 优化器,详细的学习率、随机种子、超参数搜索范围等。 模型结构:提供了教师模型(Figure 4)和 MCUR 框架(Figure 2)的结构图。 训练策略:描述了教师模型的预训练方法、学生模型的训练损失函数以及模拟模态缺失的方法。 基线复现细节:说明了如何公平复现所有对比方法。 额外分析:提供了训练损失收敛分析(Figure 5)和表示可视化(Figure 6)。 论文中引用的开源项目: BERT:论文中使用了预训练的 BERT 嵌入处理语言模态。链接:https://github.com/google-research/bert Facet toolkit:用于提取视频(人脸)特征。论文中未提供链接(通常指 iMotions 公司的 Facet 模块,需商业授权)。 COVAREP toolkit:用于提取音频特征。链接:http://covarep.github.io/covarep/ Perceiver:论文中使用的 Perceiver 编码器的实现参考了以下链接(论文中列出了编号[13, 22, 41, 45],对应不同的Perceiver变体实现)。通用实现可参考:https://github.com/lucidrains/perceiver-pytorch Variational Information Bottleneck (VIB):模型中使用的关键组件。论文中列出了参考文献[1, 8, 16, 29, 36],其中[8]的原始实现可参考:https://github.com/HIPS/neural-tangents (VIB的原始论文作者之一)。 Decoupled Knowledge Distillation (DKD):SUGR模块中用于分类任务的知识蒸馏方法。链接:https://github.com/megvii-research/mdistiller (包含了DKD的实现)。 基线方法:论文对比了以下方法的官方或公开实现(论文中提到使用了“官方实现”): CorrKD:论文中提到官方代码未公开,作者根据论文描述重新实现。 MMANet:论文中提到了官方实现,但未给出具体链接。通常可能在:https://github.com/DAMO-NLP-SG/MMANet (此为推测,论文未明确给出)。 MPLMM、IMDer、LNLN:论文中提及了这些方法,但未提供其官方代码链接。 其他依赖:论文在实现细节中提到了 PyTorch 和 CUDA 11.5。链接:https://github.com/pytorch/pytorch。 🏗️ 方法概述和架构 MCUR是一个基于知识蒸馏(KD) 的两阶段端到端框架,旨在训练一个对模态缺失鲁棒的学生模型。整体流程为:首先,使用完整模态数据训练一个教师模型;然后,在训练学生模型时,模拟各种模态缺失场景,并通过MCB-CL和SUGR两个核心模块,引导学生学习与教师一致且对缺失鲁棒的表示。 ...

2026-05-08 · 更新于 2026-06-12 · 3 min · 519 words