Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

📄 Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps #语音识别 #语音翻译 #大语言模型 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Jonas Waldendorf (University of Edinburgh) *论文标注“Work completed during an internship at Amazon AGI” 通讯作者:Evgenii Tsymbalov (Amazon AGI) *根据邮箱 etsymba@amazon.de 推断 其他作者:Bashar Awwad Shiekh Hasan (Amazon AGI) 💡 毒舌点评 亮点:论文巧妙地将文本LLM幻觉检测的注意力分析思路“翻译”到了语音领域,设计了四个抓住语音模态特性的指标,像给模型装了个“注意力心电图”来诊断“幻觉心律不齐”,在干净数据上效果拔群。 槽点:但这个“诊断仪”有点“偏科”,在ASR和S2TT两个任务间几乎无法通用,得重新训练,而且严重依赖一个高精度但低召回的自动标注器来打标签,相当于用一套有漏检的评分标准来训练医生,让人对其泛化能力打个问号。 🔗 开源详情 代码:论文提到代码在GitHub上开源(“GitHub Issue”),但未提供具体URL。推断为部分开源。 模型权重:未提及开源训练好的逻辑回归检测器权重。 数据集:使用公开数据集(VoxPopuli, CALLHOME, Fleurs),但自动标注的幻觉标签数据集未提及单独发布。 在线Demo:未提及。 依赖的开源工具:使用了scikit-learn训练逻辑回归,XCOMET-XL和多种多语言模型(xlm-roberta-base, paraphrase-multilingual-MiniLM, mDeBERTa-v3-xnli)进行评估和标签生成。 📌 核心摘要 本文旨在解决语音大模型(SpeechLLMs)在推理时产生的“幻觉”问题,即生成与输入音频不符的流畅文本。现有方法依赖昂贵的黄金标准输出,而文本LLM的方法无法捕捉音频特有信号。为此,作者提出了四个基于注意力图的轻量级指标(AudioRatio, AudioConsistency, AudioEntropy, TextEntropy),用于捕捉与幻觉相关的病态注意力模式(如注意力回退到音频开头、对角线结构退化)。在Qwen-2-Audio和Voxtral-3B模型上,使用这些指标训练逻辑回归分类器。实验表明,在域内ASR数据(VoxPopuli)上,该方法显著优于不确定性估计和先前注意力基线(PR-AUC提升高达+0.23)。研究发现,仅需约100个注意力头即可获得强性能,且能改善跨域泛化。然而,方法效果依赖于模型和任务,在嘈杂数据(CALLHOME)上泛化能力下降,且在ASR上训练的模型无法直接用于语音翻译(S2TT),突显了幻觉模式的任务特异性。 🏗️ 模型架构 本文并未提出一个新的端到端SpeechLLM架构,而是设计了一个基于注意力特征的轻量级幻觉检测器,该检测器作为插件,在现有的SpeechLLM(如Qwen-2-Audio, Voxtral-3B)推理时并行工作。 ...

2026-04-22 · 更新于 2026-05-19 · 2 min · 290 words

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation #语音翻译 #混合专家模型 #音频大模型 #少样本 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Szu-Chi Chen (台湾大学,国立台湾大学) 通讯作者:Hung-yi Lee (台湾大学,国立台湾大学;根据贡献和常见通讯作者习惯推断) 其他作者: I-Ning Tsai (台湾大学,国立台湾大学) Yi-Cheng Lin (台湾大学,国立台湾大学) Sung-Feng Huang (NVIDIA,英伟达台湾) 💡 毒舌点评 亮点:精准抓住了S2ST“翻译了语义,却丢失了灵魂(笑声/哭泣)”这个长期痛点,并用一套从数据到模型的组合拳(合成数据管道+MoE架构+两阶段训练)系统性地解决了它,效果拔群,NV保留率从14%飙升到76%。槽点:数据合成依赖于现有的情感TTS和过滤器,可能引入合成偏差;目前只聚焦于五种特定情感/声音,离建模人类全部复杂细腻的情感光谱还有距离。 🔗 开源详情 代码:论文未明确提及代码是否开源。 模型权重:论文未明确提及预训练或微调后的模型权重是否公开。 数据集:承诺开源。将发布一个1000小时的合成表达性S2ST语料库(En-Zh),包含五种情感/非语言声音类别。 在线Demo:承诺提供。访问地址:https://47zzz.github.io/MoVE/。 预训练权重:基于Kimi-Audio-7B-Instruct,但该基础模型的权重是否由作者提供未知。 引用的开源项目:使用了Whisper(编码器和ASR评估)、IndexTTS2(合成引擎)、Librosa(音频处理)、多个情感语音数据集(CREMA-D, MSP-IMPROV, IEMOCAP, JVNV)。 📌 核心摘要 这篇论文旨在解决语音到语音翻译(S2ST)系统普遍缺失非语言声音(如笑声、哭泣)和情感韵律的问题,这严重限制了跨语言交流的自然度和语用准确性。作者提出了三大贡献:1) 一个可扩展的表达性数据合成管道,能自动生成高质量、带情感标注的S2ST训练对,克服了数据稀缺瓶颈;2) MoVE(混合声音专家)架构,基于预训练音频大模型(Kimi-Audio),通过并行多个情感特化的LoRA适配器和一个动态软加权路由器,实现了对混合情感状态的精细建模,避免了特征干扰;3) 揭示了惊人的数据效率,仅需30分钟的精选数据微调,就能激活预训练模型的强大潜力,达到接近全量数据95%的情感保真度。实验表明,MoVE在英中翻译任务上,在语义准确性和非语言声音保留率(76%)上均大幅超越现有SOTA系统,并获得了最高的人工评价自然度和情感相似度分数。 🏗️ 模型架构 MoVE架构建立在预训练的音频大模型Kimi-Audio之上,其核心流程如下: 输入:源语言语音波形。 编码与离散化: 语音首先通过一个Whisper编码器(经过在表达性数据集上微调)提取高级语义和声学特征。 同时,语音通过音频分词器(Audio Tokenizer) 被离散化为一系列语音token。 LLM处理(核心创新): 离散token序列输入到冻结参数的Kimi-Audio LLM主干中。 在LLM的每个Transformer层中,注入了五个并行的LoRA专家适配器,分别专精于“高兴”、“悲伤”、“愤怒”、“大笑”、“哭泣”五种声音流形。每个专家独立作用于注意力层和前馈网络的投影矩阵(Wq, Wk, Wv, Wo, Wgate)。 一个动态软加权路由器(一个带Softmax的轻量线性层)根据当前token的隐藏状态x,为五个专家的输出计算混合权重g_i(x)。最终层的输出是基础模型权重与所有专家加权输出的和:h(x) = W0*x + Σ g_i(x) * (B_i * A_i * x)。这实现了token级别的、连续的情感混合。 解码与生成: LLM输出的离散语音token序列被送入音频解解码器(Audio Detokenizer)。 该解码器经过在表达性数据(特别是非语言声音)上的微调,能更好地将token重建为包含丰富情感和非语言声音的目标语言语音波形。 输出:保留了源语音情感和非语言声音的目标语言语音。 关键设计选择理由: ...

2026-04-21 · 更新于 2026-05-19 · 2 min · 303 words

NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages

📄 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages #语音翻译 #音频大模型 #低资源 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Marie Maltais (Mila - Quebec AI Institute, McGill University) 通讯作者:David Ifeoluwa Adelani (Mila - Quebec AI Institute, McGill University, Canada CIFAR AI Chair) (根据作者列表末尾和机构推断) 其他作者: Yejin Jeon (Mila - Quebec AI Institute, McGill University) Min Ma (Google DeepMind) Shamsuddeen Hassan Muhammad (Hausa NLP, Imperial College London) Idris Abdulmumin (Hausa NLP, University of Pretoria) Maryam Ibrahim Mukhtar (Hausa NLP) Daud Abolade (Masakhane NLP) Joel Okepefi, Johnson Sewedo (Naija Wikipedia Community) 💡 毒舌点评 亮点:这篇论文是“数据正义”的典范,为长期被忽视的非洲语言搭建了一个坚实、多口音的语音翻译擂台,并拉来了所有主流方法(级联、端到端、AudioLLM)进行了一场公开、细致的比武大会,数据收集流程堪称教科书级别。槽点:创新主要集中在数据构建和基准测试本身,模型方法上基本是“拿来主义”进行评测,缺乏针对低资源场景的原创性模型设计或训练策略突破,读起来有点像一份豪华版的数据收集与模型测评报告。 ...

2026-04-20 · 更新于 2026-05-19 · 2 min · 377 words