MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation #语音翻译 #混合专家 #预训练 #数据集 #语音情感识别 ✅ 7.5/10 | 前25% | #语音翻译 | #混合专家 | #预训练 #数据集 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Szu-Chi Chen (国立台湾大学) 通讯作者:未说明 作者列表: Szu-Chi Chen (国立台湾大学) I-Ning Tsai (未明确说明,可能同为台湾大学) Yi-Cheng Lin (未明确说明,可能同为台湾大学) Sung-Feng Huang (未明确说明,可能同为台湾大学) Hung-yi Lee (国立台湾大学) 注:机构信息明确为“National Taiwan University, Taipei, Taiwan”和“NVIDIA, Taiwan”,但论文正文中未明确每位作者对应的具体机构,仅在作者列表下方统一标注。根据惯例,第一作者和最后一位作者(Hung-yi Lee)通常属于第一单位(台湾大学),但其他作者归属需根据上下文推断或需查阅更详细信息。此处严格按文本呈现。 💡 毒舌点评 亮点:论文直击S2ST领域一个长期被忽视的痛点——非语言声音(如笑声、哭声)的跨语言传递,并给出了从数据合成到模型架构的完整解决方案,MoVE的动态路由器设计巧妙地解决了多情感建模的冲突问题。 短板:研究目前仅覆盖了5种预设的情感/非语言类别,对于更细微、更混合的情感表达(如讽刺、惊讶、尴尬)的泛化能力未经验证,且整个方案严重依赖于一个特定的预训练AudioLLM(Kimi-Audio)。 ...

2026-04-23

Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

📄 Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps #语音识别 #语音翻译 #大语言模型 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Jonas Waldendorf (University of Edinburgh) *论文标注“Work completed during an internship at Amazon AGI” 通讯作者:Evgenii Tsymbalov (Amazon AGI) *根据邮箱 etsymba@amazon.de 推断 其他作者:Bashar Awwad Shiekh Hasan (Amazon AGI) 💡 毒舌点评 亮点:论文巧妙地将文本LLM幻觉检测的注意力分析思路“翻译”到了语音领域,设计了四个抓住语音模态特性的指标,像给模型装了个“注意力心电图”来诊断“幻觉心律不齐”,在干净数据上效果拔群。 槽点:但这个“诊断仪”有点“偏科”,在ASR和S2TT两个任务间几乎无法通用,得重新训练,而且严重依赖一个高精度但低召回的自动标注器来打标签,相当于用一套有漏检的评分标准来训练医生,让人对其泛化能力打个问号。 📌 核心摘要 本文旨在解决语音大模型(SpeechLLMs)在推理时产生的“幻觉”问题,即生成与输入音频不符的流畅文本。现有方法依赖昂贵的黄金标准输出,而文本LLM的方法无法捕捉音频特有信号。为此,作者提出了四个基于注意力图的轻量级指标(AudioRatio, AudioConsistency, AudioEntropy, TextEntropy),用于捕捉与幻觉相关的病态注意力模式(如注意力回退到音频开头、对角线结构退化)。在Qwen-2-Audio和Voxtral-3B模型上,使用这些指标训练逻辑回归分类器。实验表明,在域内ASR数据(VoxPopuli)上,该方法显著优于不确定性估计和先前注意力基线(PR-AUC提升高达+0.23)。研究发现,仅需约100个注意力头即可获得强性能,且能改善跨域泛化。然而,方法效果依赖于模型和任务,在嘈杂数据(CALLHOME)上泛化能力下降,且在ASR上训练的模型无法直接用于语音翻译(S2TT),突显了幻觉模式的任务特异性。 🏗️ 模型架构 本文并未提出一个新的端到端SpeechLLM架构,而是设计了一个基于注意力特征的轻量级幻觉检测器,该检测器作为插件,在现有的SpeechLLM(如Qwen-2-Audio, Voxtral-3B)推理时并行工作。 整体流程: 输入:一段音频,由SpeechLLM处理生成文本转录/翻译。 特征提取:在SpeechLLM生成每个文本token的每一步,提取其所有层(L层)和头(H头)的注意力权重矩阵。 指标计算:对每个层-头对,在每个解码步骤计算四个指标,然后跨时间步平均,得到每个指标的L×H维特征向量。 特征处理:将四个指标的特征向量拼接,或进行特征选择(如选择Top N个头)。 分类:将处理后的特征向量输入一个预训练的逻辑回归二分类器,输出该生成步骤为“幻觉”的概率。 核心组件: 注意力模式分析模块:核心是四个指标的计算逻辑,旨在量化音频-文本对齐的健康度。 AudioRatio:计算对音频token的注意力占对音频和自回归文本前缀总注意力的比例。借鉴Lookback-Lens,但专注于音频部分。 AudioConsistency:计算连续解码步骤间对音频的注意力分布的皮尔逊相关系数。捕捉注意力是否“卡”在音频开头。 AudioEntropy:计算对音频token注意力分布的熵。衡量注意力在音频上的分散/不确定性。 TextEntropy:计算对文本输入token注意力分布的熵。 逻辑回归分类器:一个简单的线性模型,使用L1/L2正则化,在提取的注意力特征上训练。其轻量级特性是实现高效推理时检测的关键。 设计选择理由:选择逻辑回归而非复杂神经网络,是为了确保检测的高效性和可解释性,避免给SpeechLLM推理带来过大负担。四个指标的设计分别针对观察到的不同病态注意力模式(注意力比例失衡、模式停滞、不确定性高)。 💡 核心创新点 提出四个音频中心的注意力指标:这是本文最核心的创新。将通用的注意力分析方法适配到语音领域,专门设计AudioRatio(区分音频与文本前缀注意力)、AudioConsistency(捕捉音频内注意力回退)、AudioEntropy和TextEntropy(量化不确定性),以捕捉SpeechLLM特有的幻觉信号。 开发轻量级、无参考的推理时检测框架:创新性地将上述指标与极简的逻辑回归模型结合,形成了一个可在SpeechLLM推理时实时部署的幻觉检测流水线。它不依赖于黄金标准文本,仅利用模型内部表示,解决了实际部署中参考文本不可得的难题。 实证发现任务特定的注意力头主导现象:通过严格的交叉任务实验(ASR vs. S2TT),创新性地揭示了用于幻觉检测的有效注意力头在很大程度上是任务特定的。这不仅是一个重要发现,也解释了跨任务泛化失败的原因,并为未来研究指明了方向。 🔬 细节详述 训练数据: ASR检测器:在VoxPopuli训练集上训练,包含英语、德语、西班牙语、法语各10,000条,共40,000条。幻觉标签通过自动方法标注:Hallucination = I[WER + SHS > 0.7]。该阈值在1,950条人工标注数据上通过五折交叉验证选择,以追求高精度(0.979),但召回率较低(0.443)。 S2TT检测器:在Fleurs训练集(16,776条)上训练,标签基于XCOMET-XL分数,将得分最低的5%标记为幻觉。 损失函数与训练策略: 使用标准的逻辑回归损失(交叉熵)。 采用两种正则化策略:L2正则化用于最终模型;L1正则化用于“稳定特征”选择(在五折交叉验证中,保留至少四次系数非零的头)。 超参数:最大迭代次数5000,类别权重(正样本:负样本)在ASR上为1:2,在S2TT上为1:5(因幻觉样本更少)。正则化强度C在L2中为1,在L1中为0.005。 关键超参数: 特征缩放:对AudioEntropy和TextEntropy应用MinMax缩放至[0,1]范围。 特征选择:探索了使用全部头(LH4个特征)、仅AudioRatio头、以及通过L1正则化选择的“稳定特征”(99个头)。 训练硬件:实验在8块A100-40GB GPU上进行,单次实验(约78k条句子)耗时约38.5 GPU小时,总开发评估耗时约300 GPU小时。 推理细节:在SpeechLLM推理过程中,实时提取注意力图并计算指标,输入逻辑回归模型得到概率。无特殊解码策略。 📊 实验结果 主要指标对比(ASR任务,PR-AUC): VoxPopuli (Qwen-2-Audio): Mean Entropy基线: 0.49 | 本文最佳(Combined LR): 0.58 | 提升: +0.09 VoxPopuli (Voxtral-3B): Mean Entropy基线: 0.44 | 本文最佳(AudioRatio LR): 0.67 | 提升: +0.23 CALLHOME (Qwen-2-Audio): Perplexity基线: 0.69 | 本文最佳(AudioRatio LR): 0.60 | 低于基线 CALLHOME (Voxtral-3B): Mean Entropy基线: 0.59 | 本文最佳(Top 75 LR): 0.61 | 持平 主要指标对比(S2TT任务,PR-AUC): Fleurs (Qwen-2-Audio): RAUQ Entropy基线: 0.25 | 本文最佳(Top 150 LR): 0.44 | 提升: +0.19 Fleurs (Voxtral-3B): Mean Entropy基线: 0.17 | 本文最佳(Top 300 LR): 0.44 | 提升: +0.27 消融实验(特征数量影响,Voxtral-3B on VoxPopuli): 使用约100个头(Top 25 per metric)时,PR-AUC达到0.65,接近使用全部头(0.67)的性能。 仅使用5个头时,所有指标性能接近或低于Perplexity基线(0.41)。 跨任务泛化失败: 在ASR上训练的检测器(Top 75)用于S2TT(Fleurs)时,PR-AUC仅为0.15(Qwen)和0.08(Voxtral),接近随机猜测。 与SOTA对比:在ASR领域内检测上,本文方法在PR-AUC和F1上明确超越了作为基线的UE方法和早期注意力方法(如RAUQ, AttentionScore)。 ⚖️ 评分理由 创新性:7/10 - 提出了针对性强的四个新指标和轻量级检测框架,是将文本领域思路成功迁移至语音领域的优秀工程实践和实证研究,但非基础理论突破。 实验充分性:8/10 - 实验设计非常全面,覆盖多模型、多任务、多数据集,有消融、有分析、有失败案例讨论。自动标注的低召回率是主要缺陷。 实用价值:8/10 - 解决了SpeechLLM部署中的一个关键痛点(幻觉检测),方法轻量,易于集成,对提升语音应用可靠性有直接价值。 灌水程度:2/10 - 论文内容扎实,聚焦技术问题,无冗余内容或夸大表述。附录提供了额外的细节和例子。 🔗 开源详情 代码:论文提到代码在GitHub上开源(“GitHub Issue”),但未提供具体URL。推断为部分开源。 模型权重:未提及开源训练好的逻辑回归检测器权重。 数据集:使用公开数据集(VoxPopuli, CALLHOME, Fleurs),但自动标注的幻觉标签数据集未提及单独发布。 在线Demo:未提及。 依赖的开源工具:使用了scikit-learn训练逻辑回归,XCOMET-XL和多种多语言模型(xlm-roberta-base, paraphrase-multilingual-MiniLM, mDeBERTa-v3-xnli)进行评估和标签生成。 🖼️ 图片与表格 图1: 注意力图对比(幻觉 vs. 正确) | 保留: 是 - 理由:直观展示了核心假设——幻觉发生时,对角线注意力模式退化且注意力回退到音频开头。是理解方法动机的关键图示。 图2: 特征数量与PR-AUC关系图 | 保留: 是 - 理由:清晰展示了性能随注意力头数量变化的饱和曲线,是支撑“约100个头足够”这一重要结论的核心证据。 图3: VoxPopuli分类示例 | 保留: 是 - 理由:提供了具体案例,展示了真阳性、假阳性、假阴性的情况,有助于定性理解模型行为和自动标注的边界情况。 表1/2: 幻觉率统计 | 保留: 是 - 理由:提供了不同模型、数据集上的基础幻觉率数据,是后续实验的基准。 表3/4: ASR检测结果(核心) | 保留: 是 - 理由:包含了所有主要模型、方法和指标的最全面对比,是论文结论的主要数据支撑。 表5: 特征选择消融 | 保留: 是 - 理由:量化展示了不同特征选择策略(Top N, Stable Features)在域内和跨域上的性能权衡,信息量大。 表6/7: S2TT检测结果 | 保留: 是 - 理由:完整呈现了S2TT任务上的关键发现,包括跨任务失败和任务内训练的成功。 表8: 跨任务共有头比例 | 保留: 是 - 理由:用数据直接支撑了“任务特定注意力头”这一重要发现。 📸 论文图片 ...

2026-04-22

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation #语音翻译 #混合专家模型 #音频大模型 #少样本 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Szu-Chi Chen (台湾大学,国立台湾大学) 通讯作者:Hung-yi Lee (台湾大学,国立台湾大学;根据贡献和常见通讯作者习惯推断) 其他作者: I-Ning Tsai (台湾大学,国立台湾大学) Yi-Cheng Lin (台湾大学,国立台湾大学) Sung-Feng Huang (NVIDIA,英伟达台湾) 💡 毒舌点评 亮点:精准抓住了S2ST“翻译了语义,却丢失了灵魂(笑声/哭泣)”这个长期痛点,并用一套从数据到模型的组合拳(合成数据管道+MoE架构+两阶段训练)系统性地解决了它,效果拔群,NV保留率从14%飙升到76%。槽点:数据合成依赖于现有的情感TTS和过滤器,可能引入合成偏差;目前只聚焦于五种特定情感/声音,离建模人类全部复杂细腻的情感光谱还有距离。 📌 核心摘要 这篇论文旨在解决语音到语音翻译(S2ST)系统普遍缺失非语言声音(如笑声、哭泣)和情感韵律的问题,这严重限制了跨语言交流的自然度和语用准确性。作者提出了三大贡献:1) 一个可扩展的表达性数据合成管道,能自动生成高质量、带情感标注的S2ST训练对,克服了数据稀缺瓶颈;2) MoVE(混合声音专家)架构,基于预训练音频大模型(Kimi-Audio),通过并行多个情感特化的LoRA适配器和一个动态软加权路由器,实现了对混合情感状态的精细建模,避免了特征干扰;3) 揭示了惊人的数据效率,仅需30分钟的精选数据微调,就能激活预训练模型的强大潜力,达到接近全量数据95%的情感保真度。实验表明,MoVE在英中翻译任务上,在语义准确性和非语言声音保留率(76%)上均大幅超越现有SOTA系统,并获得了最高的人工评价自然度和情感相似度分数。 🏗️ 模型架构 MoVE架构建立在预训练的音频大模型Kimi-Audio之上,其核心流程如下: 输入:源语言语音波形。 编码与离散化: 语音首先通过一个Whisper编码器(经过在表达性数据集上微调)提取高级语义和声学特征。 同时,语音通过音频分词器(Audio Tokenizer) 被离散化为一系列语音token。 LLM处理(核心创新): 离散token序列输入到冻结参数的Kimi-Audio LLM主干中。 在LLM的每个Transformer层中,注入了五个并行的LoRA专家适配器,分别专精于“高兴”、“悲伤”、“愤怒”、“大笑”、“哭泣”五种声音流形。每个专家独立作用于注意力层和前馈网络的投影矩阵(Wq, Wk, Wv, Wo, Wgate)。 一个动态软加权路由器(一个带Softmax的轻量线性层)根据当前token的隐藏状态x,为五个专家的输出计算混合权重g_i(x)。最终层的输出是基础模型权重与所有专家加权输出的和:h(x) = W0*x + Σ g_i(x) * (B_i * A_i * x)。这实现了token级别的、连续的情感混合。 解码与生成: LLM输出的离散语音token序列被送入音频解解码器(Audio Detokenizer)。 该解码器经过在表达性数据(特别是非语言声音)上的微调,能更好地将token重建为包含丰富情感和非语言声音的目标语言语音波形。 输出:保留了源语音情感和非语言声音的目标语言语音。 关键设计选择理由: ...

2026-04-21

NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages

📄 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages #语音翻译 #音频大模型 #低资源 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Marie Maltais (Mila - Quebec AI Institute, McGill University) 通讯作者:David Ifeoluwa Adelani (Mila - Quebec AI Institute, McGill University, Canada CIFAR AI Chair) (根据作者列表末尾和机构推断) 其他作者: Yejin Jeon (Mila - Quebec AI Institute, McGill University) Min Ma (Google DeepMind) Shamsuddeen Hassan Muhammad (Hausa NLP, Imperial College London) Idris Abdulmumin (Hausa NLP, University of Pretoria) Maryam Ibrahim Mukhtar (Hausa NLP) Daud Abolade (Masakhane NLP) Joel Okepefi, Johnson Sewedo (Naija Wikipedia Community) 💡 毒舌点评 亮点:这篇论文是“数据正义”的典范,为长期被忽视的非洲语言搭建了一个坚实、多口音的语音翻译擂台,并拉来了所有主流方法(级联、端到端、AudioLLM)进行了一场公开、细致的比武大会,数据收集流程堪称教科书级别。槽点:创新主要集中在数据构建和基准测试本身,模型方法上基本是“拿来主义”进行评测,缺乏针对低资源场景的原创性模型设计或训练策略突破,读起来有点像一份豪华版的数据收集与模型测评报告。 ...

2026-04-20