多任务学习

Brainprint-Modulated Target Speaker Extraction

📄 Brainprint-Modulated Target Speaker Extraction #语音分离 #语音增强 #多任务学习 #多模态模型 #鲁棒性 🔥 8.0/10 | 前25% | #语音分离 | #多任务学习 | #语音增强 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qiushi Han（南京邮电大学电子与光学工程学院 & 柔性电子（未来技术）学院）通讯作者：Liya Huang（南京邮电大学电子与光学工程学院 & 柔性电子（未来技术）学院）作者列表： Qiushi Han（南京邮电大学电子与光学工程学院 & 柔性电子（未来技术）学院）（†共同第一作者） Yuan Liao（香港中文大学（深圳）人工智能与数据科学学院 & 研究生院）（†共同第一作者） Youhao Si（南京邮电大学电子与光学工程学院 & 柔性电子（未来技术）学院） Liya Huang（南京邮电大学电子与光学工程学院 & 柔性电子（未来技术）学院）（⋆通讯作者） 💡 毒舌点评本文最大的亮点在于“脑印调制”这一概念的提出，巧妙地将通常被视为噪声的个体EEG差异转化为可用的生物特征信号来指导音频分离，思路新颖且实验验证充分。不过，论文的短板在于对“个性化”的论证稍显单一，主要依赖于SID和AAD任务的监督，缺乏对脑印嵌入空间本身可解释性、跨会话稳定性以及在真实助听器设备上实时性、功耗等方面的深入讨论，使得这项工作的工程化前景存在不确定性。 🔗 开源详情代码：论文中提供了GitHub代码仓库链接：https://github.com/rosshan-orz/BM-TSE。模型权重：论文中未提及是否公开预训练模型权重。数据集：评估使用的是公开的KUL和Cocktail Party数据集，论文中提供了数据集的引用。 Demo：论文中未提及在线演示。复现材料：论文在“实现细节”部分提供了较为详细的训练配置（优化器、学习率、调度器、Batch Size、轮数、硬件），并建议参考GitHub仓库获取更多细节。论文中引用的开源项目：论文在方法部分引用了TasNet [15]和Sandglasset [16]作为其音频编码和分离网络的基础组件。 📌 核心摘要要解决的问题：当前基于脑电图（EEG）的目标说话人提取（TSE）系统面临两个核心挑战：EEG信号的非平稳性导致跨会话性能不稳定，以及显著的个体间差异限制了通用模型的泛化能力。方法核心：本文提出了脑印调制目标说话人提取（BM-TSE）框架。该框架首先使用一个带有自适应频谱增益（ASG）模块的时空EEG编码器，从非平稳信号中提取稳定特征。其核心是一个“个性化脑印调制”机制：通过联合优化说话人识别（SID）和听觉注意解码（AAD）任务，学习一个统一的“脑图”嵌入（brainmap embedding），该嵌入同时编码用户的静态身份和动态注意状态，并用它主动调制和优化音频分离过程，实现个性化输出。与已有方法相比新在哪里：传统TSE方法通常将EEG中的身份特异性信息视为需要抑制的统计噪声。BM-TSE则创新地利用这些“脑印”信息，将其作为个性化的调制信号，直接作用于语音分离网络，从“被动解码注意力”转向“主动利用身份特征进行定制化增强”。主要实验结果：在KUL和Cocktail Party两个公开数据集上的实验表明，BM-TSE在语音质量（SI-SDR）和可懂度（STOI, ESTOI）上均达到了当前最优（SOTA）。例如，在Cocktail Party数据集上，BM-TSE的SI-SDR为14.02 dB，优于之前的SOTA方法MSFNet（12.89 dB）。消融研究证实了LS-TConv、ASG、SConv模块以及LSID损失的关键作用。实际意义：该研究为开发新一代真正个性化、高保真的神经调制助听设备提供了有力的技术路径，证明了将用户独特的神经特征融入核心音频处理管线的巨大潜力。主要局限性：论文未深入探讨该框架在真实实时助听器设备上的计算复杂度、功耗及延迟；对于脑印嵌入在更长时间跨度（如数月或数年）下的稳定性验证不足；此外，实验数据集均为健康被试在实验室环境下录制，模型在听力损失患者及真实嘈杂场景中的泛化能力有待进一步验证。 🏗️ 模型架构 BM-TSE是一个端到端的多模态（EEG+音频）系统，整体架构如图1所示。 ...

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

📄 CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR #语音识别 #端到端 #多任务学习 #多语言 #跨模态 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #多任务学习 #多语言学术质量 7.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）通讯作者：未说明作者列表：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）， Yosuke Fukumoto（Honda Research Institute Japan Co., Ltd.）， Chikara Maeda（Honda Research Institute Japan Co., Ltd.）， Chyi-Jiunn Lin（Carnegie Mellon University）， Shinji Watanabe（Carnegie Mellon University） 💡 毒舌点评这篇论文的“胶水”艺术令人印象深刻，将成熟的语音编码器、说话人验证模型和动态词汇扩展技术流畅地整合进一个端到端框架，解决了多说话人ASR中一个长期存在但被割裂对待的问题，实验数据也足够扎实。然而，其主要战场仍是LibriSpeech这类“干净的混合”，在AMI这种真实、嘈杂且充满填充词的会议场景中性能出现明显波动，这暗示了该框架在面对真实世界的混乱时可能过于依赖精心构造的条件。 ...

Class-Aware Permutation-Invariant Signal-to-Distortion Ratio for Semantic Segmentation of Sound Scene with Same-Class Sources

📄 Class-Aware Permutation-Invariant Signal-to-Distortion Ratio for Semantic Segmentation of Sound Scene with Same-Class Sources #音频场景理解 #多任务学习 #置换不变训练 #空间音频 #信号处理 ✅ 7.5/10 | 前25% | #音频场景理解 | #多任务学习 | #置换不变训练 #空间音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Binh Thien Nguyen（NTT, Inc.）通讯作者：未说明作者列表：Binh Thien Nguyen（NTT, Inc.）、Masahiro Yasuda（NTT, Inc.）、Daiki Takeuchi（NTT, Inc.）、Daisuke Niizumi（NTT, Inc.）、Noboru Harada（NTT, Inc.） 💡 毒舌点评这篇论文精准地解决了DCASE挑战赛简化假设带来的“皇帝的新衣”问题——当混音里有两个“说话人”时，原本优雅的基线系统就集体宕机。其提出的损失函数和评估指标就像一副专用的眼镜，让系统能看清并区分同名的声源，技术上无懈可击。但短板在于，它本质上是在为一条专为理想情况设计的道路打补丁，实验也局限在合成的“完美场景”中，对于真实世界里更混沌的同名声源（比如一群叽叽喳喳的鸟或远处重叠的警报）是否依然有效，论文并未给出答案。 🔗 开源详情代码：论文中未提及具体的代码仓库链接，但文中提到“源代码将作为DCASE 2026挑战赛基线系统和评估指标的一部分发布”。模型权重：未提及公开的预训练模型权重。数据集：合成数据，基于现有公开数据集（如FOA-MEIR、Veluri et al.的数据）。论文未提供独立的数据集下载链接。 Demo：未提及。复现材料：论文提供了详细的训练设置（优化器、学习率、批大小、训练轮数）、损失函数公式、评估指标定义以及数据合成方法的描述，为复现提供了较好的基础。论文中引用的开源项目：引用了SpatialScaper工具用于数据合成，以及M2D预训练模型。 📌 核心摘要问题：当前的DCASE 2025 Task 4 基线S5系统（如ResUNetK）假设混音中的每个声音类别标签只出现一次。然而，在真实场景中，同一类别（如多个说话人）的声源经常同时出现。这会导致标签查询源分离（LQSS）模型在训练时产生歧义，并且官方的评估指标（CA-SDRi）也无法正确处理这种情况。方法核心：作者提出了两项关键改进：a) 损失函数：引入“类别感知置换不变SDR（CA-PI-SDR）”损失，在训练LQSS模型时，对于相同类别的输出源，允许在置换不变的约束下寻找与参考源的最佳匹配，从而解决标签重复带来的对齐歧义。b) 评估指标：设计了“类别感知置换不变SDRi（CA-PI-SDRi）”指标，采用类似的置换不变原理，使其能公平地评估包含重复标签的混合场景的性能。与已有方法相比新在哪里：与基线系统使用的随机对齐同类声源的损失（LCA-SDR）相比，新损失函数通过最小化损失的置换选择来优化训练；与完全置换不变训练（LPI-SDR）相比，新方法利用了标签信息进行约束，性能更优。新指标是CA-SDRi的扩展，解决了其在重复标签情况下的模糊性。主要实验结果：音频标签模型：在4通道输入下，对含重复标签的数据集（DupSet）的源准确率为77.9%，混合准确率为55.4%；对无重复标签的数据集（NoDupSet）分别为79.4%和68.3%。分离模型损失对比：提出的LCA-PI-SDR损失函数在平均性能上优于LCA-SDR和LPI-SDR。LCA-SDR在DupSet上性能显著下降，LPI-SDR在NoDupSet上性能较差。端到端系统：CA-PI-SDRi指标能有效同时反映标签预测准确率（x轴）和分离性能（y轴），最佳系统位于图5的右上角。实际意义：为沉浸式通信和空间音频分割领域提供了一种能处理现实中常见同类别多声源场景的解决方案，使基线系统和评估框架更加完备和实用。主要局限性：性能仍严重依赖第一阶段音频标签预测的准确性，而该模型在识别相同类别声源时仍具挑战性。此外，所有实验均基于合成数据，未在真实录音上进行验证。 🏗️ 模型架构论文聚焦于对DCASE 2025 Task 4 基线S5系统的改进，整体架构是两阶段级联： ...

CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction

📄 CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction #语音分离 #语音编码 #多任务学习 #音频编解码 ✅ 7.5/10 | 前25% | #语音分离 | #多任务学习 | #语音编码 #音频编解码学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hui-Peng Du（中国科学技术大学，语音及语言信息处理国家工程研究中心）通讯作者：Yang Ai（中国科学技术大学，语音及语言信息处理国家工程研究中心）作者列表：Hui-Peng Du（中国科学技术大学）、Yang Ai*（中国科学技术大学）、Xiao-Hang Jiang（中国科学技术大学）、Rui-Chen Zheng（中国科学技术大学）、Zhen-Hua Ling（中国科学技术大学）。所有作者均隶属于“语音及语言信息处理国家工程研究中心，中国科学技术大学，合肥，中国”。 💡 毒舌点评论文精准地瞄准了“既要分离又要压缩”这个被忽略的实用场景，并设计了逻辑自洽的模型，实验也充分证明了其在极低码率下吊打简单级联方案。然而，模型本质上仍是Transformer、RVQ和LSTM等成熟模块的“拼接乐”，缺乏更底层的方法论创新；且实验仅限于两人说话，面对更复杂的多人鸡尾酒会能否保持住这个“1 kbps”的优势，恐怕要打个问号。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开的Libri2Mix数据集，但未提及是否提供了处理后的版本或新的数据集。 Demo：提供了在线语音样本演示：https://redmist328.github.io/CodeSep/ 复现材料：论文给出了主要模型架构和超参数的大致描述，但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：论文主要依赖了MDCTCodec [19]，并引用了Sepformer [10]作为基线，ConvNeXt v2 [20]，AdamW [22]等公开方法/工具。 📌 核心摘要问题：本文针对一个实际但未被充分研究的场景——同时进行语音分离与语音压缩。在在线会议、对话归档等应用中，需要从混合语音中分离出说话人，并将其表示为紧凑的离散token以便高效传输或存储。 ...

CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures

📄 CompSpoof: A Dataset and Joint Learning Framework for Component-Level Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #语音分离 #多任务学习 #数据集 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #语音分离 | #多任务学习 #数据集学术质量 4.7/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xueping Zhang（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）通讯作者：Ming Li（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心）作者列表： Xueping Zhang（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心） Yechen Wang（OfSpectrum, Inc., Los Angeles, USA） Linxi Li（OfSpectrum, Inc., Los Angeles, USA） Liwei Jin（OfSpectrum, Inc., Los Angeles, USA） Ming Li（苏州昆山杜克大学，多模态智能系统苏州市重点实验室；数字创新研究中心） 💡 毒舌点评亮点：敏锐地捕捉并定义了“成分级伪造”这一更隐蔽的攻击新范式，并为此构建了首个配套数据集和完整的端到端解决方案，框架设计逻辑自洽。短板：提出的数据集规模较小（2500条），且环境声伪造检测效果显著弱于语音伪造检测，说明所提的“专用环境声反欺骗模型”（直接复用XLSR-AASIST）可能并不完全适配，成为系统性能短板。 ...

Context-Aware Dynamic Graph Learning for Multimodal Emotion Recognition with Missing Modalities

📄 Context-Aware Dynamic Graph Learning for Multimodal Emotion Recognition with Missing Modalities #语音情感识别 #多模态模型 #大语言模型 #多任务学习 #鲁棒性 🔥 8.8/10 | 前10% | #语音情感识别 | #多模态模型 | #大语言模型 #多任务学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Miree Kim（首尔淑明女子大学软件系）通讯作者：Sunyoung Cho（首尔淑明女子大学软件系）作者列表：Miree Kim（首尔淑明女子大学软件系）、Sunyoung Cho（首尔淑明女子大学软件系） 💡 毒舌点评亮点在于将大语言模型从“黑盒”生成器改造为上下文感知的情感特征提取器，生成的关键词作为引导信息注入图神经网络，这种“LLM作为特征增强器”的思路比端到端微调更轻量且针对性强。短板是模拟缺失场景的方式（随机丢弃）可能过于理想化，与真实世界中模态缺失的关联性（如特定情境下语音质量差）不符，且未深入讨论LLM引入带来的计算开销。 🔗 开源详情代码：提供代码仓库链接：https://github.com/premiree/CDAGL.git 模型权重：未提及是否公开预训练模型权重。数据集：使用公开数据集IEMOCAP和MELD，但未说明具体获取方式或预处理脚本。 Demo：未提供在线演示。复现材料：论文“Implementation details”小节提供了较为详细的超参数设置（特征提取器、模型维度、优化器、损失权重等），对复现核心方法有帮助。引用的开源项目：Qwen-7B（LLM）、AudioCLIP、BERT、DenseNet-121、MMIN[8]中的Imagination Module。 📌 核心摘要问题：对话场景下的多模态情感识别（MERC）在实际应用中面临模态缺失（如文本、音频、视频不全）的挑战，现有方法难以在缺失条件下保持语义一致性和鲁棒性。方法核心：提出一个统一框架，包含三个核心组件：(1) 一个自适应对话图，利用改进的动态图常微分方程（DGODE）建模说话人及时间动态；(2) 利用大语言模型（Qwen-7B）提取条件化的、情感相关的关键词，作为重构缺失模态的语义引导；(3) 引入基于AudioCLIP的跨模态对齐损失，强制重建模态与可用模态语义一致。创新点：相比传统统计填充或简单生成模型，本方法创新性地结合了图动态建模、大语言模型上下文引导的语义增强和跨模态对比对齐，实现了在缺失模态下的高质量重构与情感识别。主要实验结果：在IEMOCAP和MELD数据集上，该方法在6种模态缺失场景的平均F1分数（Avg. F1）分别达到69.13%和62.39%，显著优于之前SOTA方法（如MPLMM：67.22%， 60.56%）。在全模态设置下也达到最优（IEMOCAP：73.74% F1； MELD：70.22% F1）。消融实验证实了LLM关键词（带来约1.8-2.6% F1提升）和AudioCLIP对齐（带来约1.2-1.7% F1提升）的有效性。数据集方法 {a} F1 {v} F1 {t} F1 {a,v} F1 {a,t} F1 {v,t} F1 Avg. F1 IEMOCAP Ours 61.28 58.14 70.91 69.15 78.22 77.05 69.13 MPLMM 59.71 56.98 69.28 67.37 75.44 74.51 67.22 MELD Ours 55.21 51.64 67.71 59.97 69.67 70.15 62.39 MPLMM 52.95 50.41 65.28 58.14 68.29 68.31 60.56 实际意义：为构建在现实复杂环境下（传感器不稳定、数据部分丢失）仍能稳定工作的情感计算系统提供了有效的解决方案。主要局限性：模态缺失模拟方式（随机丢除）可能与真实场景不完全一致；框架依赖多个预训练模型（BERT, AudioCLIP, DenseNet, Qwen），推理流程相对复杂；未详细分析大语言模型推理带来的额外计算成本。 🏗️ 模型架构模型架构（如图1所示）是一个端到端的联合优化框架，主要包含以下模块和数据流�� ...

Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction

📄 Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction #语音识别 #语音大模型 #多任务学习 #鲁棒性 ✅ 7.0/10 | 前25% | #语音识别 | #多任务学习 | #语音大模型 #鲁棒性学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Sashi Novitasari（根据论文作者列表顺序推断）通讯作者：未说明作者列表：Sashi Novitasari (IBM Research), Takashi Fukuda (IBM Research), Gakuto Kurata (IBM Research), George Saon (IBM Research) 💡 毒舌点评这篇论文最实在的贡献在于，它把“如何给生僻字注音”这个语言学难题，巧妙地转化成了“找几个长得像或听着像的常用字当参考”的工程学方案，对用户非常友好，避免了复杂的音素操作。不过，它的实验主要围绕一个特定SLLM（Granite-Speech）和英语展开，说服力尚可但天花板不高，且完全没提代码，让想“拿来主义”的同行们有些失望。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的、经本文方法微调后的模型权重。数据集：实验使用了多个公开数据集（Librispeech, CommonVoice等），但未提及为本文构建或公开的特殊数据集。偏置词列表是自动构建的，但其具体生成脚本未公开。 Demo：论文中未提及在线演示。复现材料：论文提供了部分关键信息，如基础模型（Granite-Speech）、G2P工具（SoundChoice）、单词表（MIT 10K）、训练轮数（3 epochs）、学习率（5e-6）、微调参数（Q-former, LoRA）。但缺失重要超参数（如损失权重α、批大小、优化器）、训练硬件、完整的代码和配置。论文中引用的开源项目：基础模型：Granite-Speech (Hugging Face), Granite-3.3-8B-Instruct (Hugging Face) G2P工具：SpeechBrain, SoundChoice G2P 总体开源状态：论文未提及任何开源计划，复现材料不足。 📌 核心摘要解决的问题：语音感知大语言模型（SLLM）在识别训练数据中罕见或未见过的“偏置词”（如特定名称）时表现不佳。传统基于音素的辅助方法依赖专用的G2P（字素到音素）系统，对普通用户门槛高且系统复杂。方法核心：提出两种结合使用的改进：(1) 单词级提示：使用与偏置词部分发音相似的常见单词序列（如用“sheriff, legal”提示“Shelley”）作为发音线索，通过文本提示注入模型；(2) 偏置词位置预测：训练时引入一个辅助任务，预测转录文本中每个字符是否属于偏置词，增强模型对偏置词的识别能力。与已知方法相比新在哪里：与传统音素提示相比，单词级提示无需用户具备语音学知识或依赖特定G2P系统，更加灵活和用户友好。位置预测机制则是一个在SLLM中未被充分探索的多任务训练思路，旨在强化模型对偏置词位置的敏感性。主要实验结果：在Librispeech测试集上，使用200个偏置词的列表时，所提方法（CED+PED）相比无提示基线，将偏置词词错率（B-WER）从5.8%降至4.4%，相对降低24.1%。在更大规模的多数据集实验中，结合位置预测和单词提示的完整方法，在三个测试集上平均B-WER为8.8%，相比无提示基线（10.6%）相对降低约16.3%。关键结果如下表所示：方法（偏置列表=200） Librispeech test-other B-WER 基线（Ctx, no phonetic hint） 5.8% 上线（Ctx, Phon） 3.4% 所提方法（CED+PED） 4.4% 表：论文表2关键数据摘录 ...

Cross-Modal Knowledge Distillation for Speech Large Language Models

📄 Cross-Modal Knowledge Distillation for Speech Large Language Models #语音大模型 #知识蒸馏 #跨模态 #多任务学习 ✅ 7.0/10 | 前25% | #语音大模型 | #知识蒸馏 | #跨模态 #多任务学习学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Enzhi Wang (南开大学计算机科学学院TMCC, 腾讯天籁音频实验室) 通讯作者：Qicheng Li (南开大学计算机科学学院TMCC) 作者列表：Enzhi Wang (南开大学计算机科学学院TMCC, 腾讯天籁音频实验室), Qicheng Li* (南开大学计算机科学学院TMCC), Zhiyuan Tang (腾讯天籁音频实验室), Yuhang Jia (南开大学计算机科学学院TMCC) 💡 毒舌点评亮点在于系统性地诊断并量化了语音大模型“引入语音能力后文本和语音性能双降”这一普遍但缺乏深入研究的问题，并提出了一个直观有效的双向知识蒸馏框架来缓解。短板是其提出的方法核心（知识蒸馏）并非新算法，且实验中使用的合成语音质量（CosyVoice 2）和有限的训练数据（约6万条）可能在一定程度上限制了结论的普适性与效果上限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及是否公开蒸馏后的模型权重。数据集：实验使用了公开数据集Open-Orca和Clotho。论文未提及是否公开其合成的语音数据或特定蒸馏数据。 Demo：未提及。复现材料：论文详细描述了实验设置（骨干模型、TTS系统、数据集、超参数），可支持复现。但未提供检查点或更详细的配置文件。引用的开源项目：CosyVoice 2 (TTS), Open-Orca (数据集), Cloths (数据集), Kimi-audio toolkit (评估工具)。总体：论文中未提及开源计划。 📌 核心摘要问题：在将预训练文本大模型（LLM）扩展为语音大模型（Speech LLM）时，普遍存在两种性能退化现象：(1) 灾难性遗忘，即引入语音能力后，模型在处理文本输入时的知识和推理能力下降；(2) 模态不平等问题，即同一模型处理语音输入时的性能显著低于文本输入。方法核心：提出一个跨模态知识蒸馏框架，将原始的文本LLM作为教师，语音LLM作为学生。通过两个互补的蒸馏通道进行训练：(a) 文本到文本（T→T）蒸馏，用教师模型的输出（或真实标签）监督学生模型处理文本输入，以缓解遗忘；(b) 语音到文本（S→T）蒸馏，将文本通过TTS转换为语音输入学生模型，同时教师仍基于原始文本生成监督信号，以增强跨模态对齐。新意：首次系统评估并定义语音大模型中的“灾难性遗忘”与“模态不平等问题”。首次将跨模态知识蒸馏显式地应用于解决语音大模型在对话问答任务中的性能退化问题，而非局限于声学分析任务。方法设计强调双向（T→T和S→T）协同训练。实验结果：在VoiceBench和MMAU-mini基准上验证。以Qwen2.5-Omni为基线，使用约6万样本进行蒸馏后，其语音输入（S→T）整体性能从75.08提升至77.19（表2）。同时，其文本输入（T→T）性能也从78.60提升至79.86（表3），证明了方法在缓解遗忘和提升模态性能上的有效性。在语音音频分析任务（MMAU-mini）上，加入额外声学问答数据后平均分从74.20提升至78.95（表4）。实际意义：为构建更鲁棒的语音大模型提供了一种实用、低成本的训练后优化范式，只需少量数据和微调即可同时增强模型的文本知识保持能力和跨模态语音理解能力。主要局限性：方法高度依赖TTS系统生成的合成语音质量。实验仅使用了约6万条指令微调数据，未在更大规模或更多样的数据上验证。未探索如何将声学特征的知识（如音色、情感）与语义知识更好地融合，以进一步缩小模态差距。 🏗️ 模型架构论文没有提供其提出的蒸馏框架的详细架构图，但描述了其研究的基础模型架构和蒸馏框架的工作流。 ...

Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR

📄 Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR #语音识别 #混合专家模型 #多任务学习 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #混合专家模型 | #多任务学习 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Jaeyoung Lee (NTT, Inc., Japan)， Masato Mimura (NTT, Inc., Japan) 💡 毒舌点评这篇论文巧妙地将模态感知的稀疏MoE融入解码器端Conformer，用一个统一模型处理语音和文本，在参数更少（113M vs. 139M）的情况下超越了传统AED基线，展现了架构简化与效率提升的潜力。然而，其“统一”处理的前提是已知模态边界（语音/文本位置固定），这限制了模型在更灵活的交错输入场景下的应用；此外，依赖CTC辅助损失和标签平滑才达到竞争力，也暗示了该架构自身在稳定训练上的短板。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开模型权重。数据集：使用了公开的LibriSpeech和CommonVoice数据集，并描述了子集构建方式。 Demo：论文中未提及在线演示。复现材料：提供了较为详细的模型架构、训练超参数、损失函数权重和数据处理方法。但未提供检查点或训练配置文件。引用的开源项目：论文中引用了Adam优化器、SpecAugment等常见开源工具/方法，但未提及依赖的具体代码库。总结：论文提供了足够的方法细节以指导复现，但未明确开源代码或模型。 📌 核心摘要本文针对自动语音识别（ASR）任务，提出了一种仅使用解码器端的Conformer架构，旨在无需外部语音编码器或预训练大语言模型（LLM）的前提下，统一处理语音特征和文本标记。其核心创新在于引入了模态感知的稀疏混合专家模型（MoE），为语音和文本设置了不相交的专家池并采用硬路由和top-1选择机制，并与混合因果性Conformer块（语音双向，文本因果）相结合。与现有方法相比，本文是首次在随机初始化的解码器架构中，通过模态感知路由和稀疏MoE，实现了无需显式对齐模块且超越强编码器-解码器（AED）基线的性能。实验表明，在LibriSpeech数据集上，该113M参数模型在test-clean和test-other上的词错误率（WER）分别为2.8%和5.6%，优于139M参数的AED基线（3.2% vs. 6.0%）。在CommonVoice 16.1的五语言多语言任务中，平均WER从12.2%降低至10.6%。该工作的实际意义在于证明了解码器端统一架构在ASR中的可行性，为简化ASR系统流水线提供了新思路。主要局限性包括：目前仅支持离线推理，尚未探索流式处理；模型依赖预设的模态边界，缺乏对模态间灵活交互的探索；未来工作可扩展至流式ASR及跨模态专家共享机制。 ...

DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance #语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kang Yin（中国科学技术大学），Chunyu Qiang（快手科技）（论文标注†表示同等贡献，故两位均为第一作者）通讯作者：Sirui Zhao（中国科学技术大学），Tong Xu（中国科学技术大学），Chen Zhang（快手科技）（论文标注*表示通讯作者）作者列表： Kang Yin（中国科学技术大学） Chunyu Qiang（快手科技） Sirui Zhao（中国科学技术大学） Xiaopeng Wang（快手科技） Yuzhe Liang（快手科技） Pengfei Cai（中国科学技术大学） Tong Xu（中国科学技术大学） Chen Zhang（快手科技） Enhong Chen（中国科学技术大学） 💡 毒舌点评本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案，Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效，实验数据扎实，切实推动了可控TTS在解耦方向上的进步。然而，其创新更多是“优秀的组合”而非“从零的突破”，且说话人相似度这一关键指标不及部分基线，暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。 ...