语音大模型

Whisper-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion

📄 Whisper-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion #语音识别 #语音大模型 #注意力机制 #模型优化 #推理优化 ✅ 7.0/10 | 前25% | #语音识别 | #注意力机制 | #语音大模型 #模型优化学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sen Zhang（天津大学智能与计算学院）通讯作者：Xianghu Yue（† 标注，天津大学智能与计算学院）作者列表：Sen Zhang¹, Jianguo Wei¹, Wenhuan Lu¹, Xianghu Yue¹,†, Wei Li², Qiang Li², Pengcheng Zhao², Ming Cai², Luo Si²（¹天津大学智能与计算学院，²斑马网络技术有限公司） 💡 毒舌点评这篇论文的亮点在于将复杂的MLA机制巧妙地“翻译”到了Whisper的绝对位置编码架构上，并通过实验精准地找到了最佳部署点（仅解码器自注意力），实现了显著的内存节省和可忽略的精度损失，实用性很强。短板在于其验证仅限于Whisper-small模型，缺乏在更大规模模型（如Whisper-large）上的数据来证明其普适性；同时，对于语音任务中至关重要的流式处理场景，论文未做任何分析和探讨。 🔗 开源详情代码：论文提供了公开的代码仓库链接：https://github.com/sssssen/Whisper MLA。模型权重：论文未提及是否公开转换后的Whisper-MLA模型权重。数据集：使用的是公开的LibriSpeech数据集，论文中已说明。 Demo：未提及提供在线演示。复现材料：提供了相当充分的复现信息，包括：转换方法（SVD细节）、微调数据集（LibriSpeech 960h）、训练超参数（3 epochs）、硬件环境（单卡RTX 4090）、批大小与梯度累积设置、转换与微调总时长（12小时）。论文中引用的开源项目：主要依赖于OpenAI的Whisper模型作为基线和预训练源。 📌 核心摘要本文旨在解决Whisper模型因Multi-Head Attention (MHA)机制中Key-Value (KV)缓存线性增长而导致的GPU内存消耗过高问题，该问题在长语音识别中尤为突出。核心方法是将Multi-Head Latent Attention (MLA)引入Whisper，并针对其绝对位置编码特性进行了适配。与已有工作相比，本文新在：1）提出了适配绝对位置编码的MLA架构，保留了原始模型的参数与能力；2）系统研究了MLA在编码器自注意力、解码器自注意力、解码器交叉注意力三种模块中的应用，发现仅应用于解码器自注意力（DSO）是性能与内存效率的最佳平衡点；3）开发了一种参数高效的转换策略，可从预训练Whisper模型快速转换而来。实验在LibriSpeech基准上表明，Whisper-MLA (DSO) 可将KV缓存大小减少高达87.5%，同时平均词错误率（WER）仅比微调后的Whisper基线高0.17%。该工作的实际意义在于，为在资源受限硬件上部署Whisper模型处理长音频提供了可行的内存优化方案。主要局限性在于仅在Whisper-small模型上进行了验证。 ...

Whisper-QF: Leveraging Dual Cross-Attention Q-Former for Speech Emotion Recognition With Multi-Task Learning

📄 Whisper-QF: Leveraging Dual Cross-Attention Q-Former for Speech Emotion Recognition With Multi-Task Learning #语音情感识别 #多任务学习 #语音大模型 #Q-Former ✅ 7.5/10 | 前25% | #语音情感识别 | #多任务学习 | #语音大模型 #Q-Former 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ziyang Zhuang（平安科技，Ping An Technology）通讯作者：未说明作者列表：Ziyang Zhuang（平安科技）、Tao Wei（平安科技）、Yan Shi（平安科技）、Shaojun Wang（平安科技）、Jing Xiao（平安科技） 💡 毒舌点评本文亮点在于设计了双交叉注意力Q-Former，巧妙且高效地桥接了Whisper编码器的声学特征与解码器的语义状态，在IEMOCAP上刷新了SOTA，证明了这种“适配器”设计的威力。但短板在于，它本质上是对Whisper现有架构的增强与适配，并未探索情感识别本身更深层的建模范式变革，且研究高度依赖单一数据集，结论的泛化性有待更多场景验证。 🔗 开源详情代码：论文中未提及代码链接。文中仅提到使用Hugging Face Transformers库进行开发。模型权重：未提及是否公开训练好的模型权重。数据集：使用公开的IEMOCAP数据集，但论文未提及自己是否提供数据集的特定预处理版本。 Demo：未提及。复现材料：论文提供了详细的训练超参数（表2）、硬件环境、数据划分方式、评估指标和消融实验设置，复现细节相对充分。论文中引用的开源项目：明确引用了Hugging Face Transformers库（[29]）和Whisper预训练模型（[4]及其链接）。总体：论文中未提及开源计划。 📌 核心摘要问题：如何有效利用大规模预训练语音基础模型（如Whisper）的编码器-解码器架构，来提升语音情感识别（SER）的性能，同时克服��有方法在融合声学与语义信息上的局限。方法：提出Whisper-QF框架，其核心是一个双交叉注意力Q-Former（DualCA-QF）模块。该模块包含两个交叉注意力层：第一层将可学习的查询向量与Whisper编码器的声学特征对齐；第二层将同一查询向量与Whisper解码器的语义状态对齐。同时，通过不确定性加权进行多任务学习，联合优化SER、性别分类（GR）和自动语音识别（ASR）任务。创新：与先前方法（如序列化多任务学习的Whisper-ER）相比，DualCA-QF允许声学和语义信息在Q-Former内部并行、双向流动，而非序列依赖。查询嵌入从Whisper预训练词嵌入中初始化，使任务与基础模型的语义空间对齐。多任务学习策略提供了更丰富的监督信号。结果：在IEMOCAP数据集上，基于Whisper-large-v3的Whisper-QF达到81.5%加权准确率（WA）和81.8%未加权准确率（UA），显著超越Whisper-ER等基线。同时，ASR词错误率（WER）从Whisper-ER的17.8%降至11.1%。消融实验表明，移除解码器感知交叉注意力使中性情绪的误分类减少23%。主要结果对比如下：模型参数量 SER WA SER UA GR Acc ASR WER Whisper-ER large-v3 1.54B 78.7% 79.4% 99.4% 17.8% Whisper-QF large-v3 1.57B 81.5% 81.8% 99.6% 11.1% 意义：验证了通过轻量级、架构感知的适配模块（如Q-Former），可以高效地挖掘大规模语音基础模型在情感理解等复杂任务上的潜力，为预训练模型在语音领域的迁移学习提供了新思路。局限：研究仅在IEMOCAP（英语、情感类别有限）一个数据集上进行验证，模型的跨语言、跨数据集泛化能力未被评估。此外，框架的效能高度依赖于Whisper本身的能力和质量。 🏗️ 模型架构 Whisper-QF的整体架构如图1所示，主要由三个部分组成：原始的Whisper模型、双交叉注意力Q-Former（DualCA-QF）以及不确定性加权的多任务学习框架。 ...

Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective

📄 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective #语音生成 #语音大模型 #模型评估 #零样本 #基准测试 ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Hankun Wang（X-LANCE Lab，上海交通大学计算机科学与技术学院）通讯作者：Kai Yu（X-LANCE Lab，上海交通大学计算机科学与技术学院）作者列表：Hankun Wang（X-LANCE Lab，上海交通大学）， Haoran Wang（X-LANCE Lab，上海交通大学）， Yiwei Guo（X-LANCE Lab，上海交通大学）， Zhihan Li（X-LANCE Lab，上海交通大学）， Chenpeng Du（X-LANCE Lab，上海交通大学）， Kai Yu（X-LANCE Lab，上海交通大学） 💡 毒舌点评本文像一份详尽的“体检报告”，精准诊断出端到端语音大模型“语义表达不畅”的三大病根：音素编码不语义、序列太长、口音情绪太杂乱，并证明后两者影响远大于第一个。然而，光有诊断没有药方，论文止步于“未来可从短序列和强监督入手”的开放式建议，对于急需突破的社区而言，这记重拳打在了空气里。 ...

Z-Scores: A Metric for Linguistically Assessing Disfluency Removal

📄 Z-Scores: A Metric for Linguistically Assessing Disfluency Removal #语音识别 #模型评估 #大语言模型 #语音大模型 #开源工具 ✅ 6.5/10 | 前50% | #模型评估 | #语音大模型 | #语音识别 #大语言模型学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（作者列表按字母顺序排列，未明确标注）通讯作者：未说明作者列表：Maria Teleki (德州农工大学), Sai Janjur (德州农工大学), Haoran Liu (德州农工大学), Oliver Grabner (德州农工大学), Ketan Verma (德州农工大学), Thomas Docog (德州农工大学), Xiangjue Dong (德州农工大学), Lingfeng Shi (德州农工大学), Cong Wang (德州农工大学), Stephanie Birkelbach (德州农工大学), Jason Kim (德州农工大学), Yin Zhang (德州农工大学), James Caverlee (德州农工大学) 💡 毒舌点评本文提出的Z-Scores指标和配套的对齐模块，确实为评估生成模型去除语音不流畅性的能力提供了一个比整体F1分数更细致的诊断视角，这对于理解和改进模型行为很有帮助。然而，其核心创新（一个特定任务的评估指标和基于字符串匹配的对齐算法）更像是一次精心的“工具开发”，在技术深度和实验广度（仅用一个LLM基线、一个数据集进行了演示性案例研究）上稍显不足，离改变领域范式还有距离。 ...

Scaling Properties of Continuous Diffusion Spoken Language Models

📄 Scaling Properties of Continuous Diffusion Spoken Language Models #语音大模型 #预训练 #扩散模型 #多语言 🔥 8.0/10 | 前25% | #语音生成 | #扩散模型 | #语音大模型 #预训练 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Jason Ramapuram（†工作完成于Apple）通讯作者：Jason Ramapuram (jason@ramapuram.net)；Eeshan Gunesh Dhekane (eeshan@apple.com)；Amitis Shidani (amitis_shidani@apple.com)；Tatiana Likhomanenko (antares@apple.com) （论文未明确指定单一通讯作者，以上四位均列出）作者列表： Jason Ramapuram† Eeshan Gunesh Dhekane* Amitis Shidani* Dan Busbridge Bogdan Mazoure† Zijin Gu Russ Webb Tatiana Likhomanenko⋆ Navdeep Jaitly†⋆ 所属机构：全部隶属于 Apple。⋆和†符号分别表示核心建议者和工作在Apple完成，但作者单位均标注为Apple。 💡 毒舌点评本文严谨地证明了连续扩散语音模型同样遵循缩放定律，且在高计算预算下展现出比自回归模型更优的“效率前沿”，为语音生成范式之争提供了坚实的数据支撑。然而，最精妙的16B模型实验仍未能攻克长篇连贯性的终极难题，无情地揭示了当前范式与文本模型之间的能力鸿沟，可能预示着语音原生生成道路的艰辛。 ...

MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #语音大模型 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Jialong Mai（华南理工大学）通讯作者：Xiaofen Xing（华南理工大学）作者列表：Jialong Mai（华南理工大学）、Xiaofen Xing（华南理工大学）、Xiangmin Xu（华南理工大学） 💡 毒舌点评亮点在于首次将“token级时长与停顿”作为显式数值条件注入Flow-based TTS，思路清晰且工程设计（如零值校正、交叉验证数据构建）巧妙。短板是实验规模和场景相对有限（主要在中文短句上验证），且缺乏与更多现代零样本TTS基线（如CosyVoice 2、MaskGCT）的直接对比，说服力可以更强。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中描述了数据构建方法（基于Emilia子集和交叉验证子集），但未提及是否公开或如何获取。 Demo：未提及在线演示。复现材料：论文详细描述了训练配置（学习率、batch size、步数、硬件等）、模型架构细节和评估协议，提供了良好的复现信息基础。论文中引用的开源项目：F5-TTS（骨干模型）、Stable-ts（时长标签生成）、Montreal Forced Aligner (MFA)（对齐与评估）、Vocos（声码器）、Emilia（训练数据集）。 📌 核心摘要问题：现有的文本转语音（TTS）系统通常只提供语句级的时长控制或全局语速调节，缺乏对单个token（如音素、字）的精确发音时长和停顿的显式、细粒度控制能力。方法核心：提出MAGIC-TTS，这是一个基于流匹配（Flow Matching）的零样本TTS模型。其核心是通过残差连接，将token级的内容时长（di）和停顿（pi）作为显式数值条件注入到文本表征中，从而引导并行声学生成器进行合成。创新点：这是首个支持token级显式时长与停顿控制的TTS模型。关键创新包括：1）设计了可学习的门控残差注入机制，将时长条件融入文本嵌入；2）提出零值校正方法，平衡内容时长与停顿两个控制分支的学习信号；3）构建了基于交叉验证的高置信度时长监督数据集，用于稳定训练。主要实验结果：时长控制精度：在B@150测试集上，与无控制的“自发合成”相比，提供显式控制后，内容时长平均绝对误差（C-MAE）从36.88ms降至10.56ms，相关性（C-Corr.）从0.588升至0.918；停顿平均绝对误差（P-MAE）从18.92ms降至8.32ms，相关性（P-Corr.）从0.283升至0.793。局部编辑场景：在导航、朗读等场景中，模型能以极低偏差（内容时长偏差1.07ms）实现均匀时长基线，并能将局部编辑区域有效推向目标值（内容时长偏差17.60ms，停顿偏差23.33ms）。消融实验：移除零值校正或高置信度监督会损害控制精度，尤其是更精细的内容时长控制。实际意义：使TTS系统能够支持需要精确节奏控制的实用场景，如导航提示的均匀播报、教学朗读的节奏引导、以及无障碍代码阅读的特定停顿。主要局限性：模型性能高度依赖外部对齐工具（如MFA、Stable-ts）提供的时长标签质量；实验主要集中在中文短句，对长文本、多语言及更复杂韵律的泛化能力未充分验证；未开源代码和模型。 🏗️ 模型架构 MAGIC-TTS建立在基于条件流匹配（Conditional Flow Matching）的非自回归零样本TTS骨干网络（F5-TTS）之上。其整体流程如下： ...

语音/音频论文速递 2026-04-25

语音/音频论文速递 2026-04-25 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #机器人技能学习 1篇 █ #语音合成 1篇 █ 📊 论文评分排行榜（2 篇，按分数降序）排名论文评分分档主任务 🥇 MOMO: A framework for seamless physical, verbal, and gr 7.5分前25% #机器人技能学习 🥈 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分前25% #语音合成 📋 论文列表 🥇 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation ✅ 7.5/10 | 前25% | #机器人技能学习 | #多模态模型 | #大语言模型 #工业应用 | arxiv ...

Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition

📄 Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition #语音识别 #语音大模型 #鲁棒性 #基准测试 ✅ 7.5/10 | 前25% | #语音识别 | #语音大模型 | #鲁棒性 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Srishti Ginjala（The Ohio State University）通讯作者：未说明作者列表：Srishti Ginjala（The Ohio State University, Columbus, OH, USA）、Eric Fosler-Lussier（The Ohio State University, Columbus, OH, USA）、Christopher W. Myers（Air Force Research Laboratory, USA）、Srinivasan Parthasarathy（The Ohio State University, Columbus, OH, USA） 💡 毒舌点评这篇论文的亮点在于其极其系统和扎实的实验设计，通过控制变量（三代架构、五个人口统计轴、十二种退化条件）揭示了LLM解码器对ASR公平性影响的复杂图景，尤其是“严重退化压缩公平差距”和“静音注入放大Whisper口音偏见”等反直觉发现极具启发性。但短板在于，它本质上是一个大规模基准测试和现象分析，而非提出一种解决公平性问题的新方法，其结论的普适性受限于仅评估了英语语音和特定的合成退化条件。 ...

Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages

📄 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages #音频深度伪造检测 #预训练 #多语言 #语音大模型 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Girish（UPES, India）与 Mohd Mujtaba Akhtar（Veer Bahadur Singh Purvanchal University, India）为共同第一作者通讯作者：Orchid Chetia Phukan（IIIT-Delhi, India），邮箱：orchidp@iiitd.ac.in 作者列表： Girish（UPES, India） Mohd Mujtaba Akhtar（Veer Bahadur Singh Purvanchal University, India） Orchid Chetia Phukan（IIIT-Delhi, India） Arun Balaji Buduru（IIIT-Delhi, India） 💡 毒舌点评这篇论文在填补印度语言CodecFake检测空白方面做得非常扎实，SATYAM模型的双曲空间对齐设计也颇具巧思，为多模态融合提供了新思路。然而，其所有“实战”演练都发生在精心构造的合成数据集上，缺乏对真实世界中可能遇到的噪声、信道失真、对抗攻击等复杂因素的评估，这使得其宣称的“鲁棒性”仍停留在实验室阶段。 ...

SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

📄 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation #基准测试 #语音大模型 #语音合成 #多语言 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ruohan Liu (南京大学) 通讯作者：Chaoyou Fu (南京大学) 作者列表： Ruohan Liu (南京大学) Shukang Yin (南京大学) Tao Wang (南京大学) Dong Zhang (小米) Weiji Zhuang (小米) Shuhuai Ren (小米) Ran He (南京大学) Caifeng Shan (南京大学) Chaoyou Fu (南京大学) 💡 毒舌点评亮点：这篇论文把“副语言生成评估”这个模糊地带彻底标准化了，从不到50个特征扩展到100多个，还设计了从静态控制到动态变化再到情境适应的递进式任务，评估流水线也用上了“成对比较”来对抗主观性，工程上相当完备。短板：数据全靠合成，用TTS生成的“用户查询”和真实人类说话的副语言信息可能差了十万八千里，这导致整个基准测试的生态位有点尴尬——它测的是模型对“合成指令”的服从度，而非对“真实人类语音”的理解力。 ...