音频大模型

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

📄 HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models #基准测试 #模型评估 #音频大模型 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者： Feiyu Zhao（天津大学，智能与计算学院）通讯作者： Jianguo Wei（天津大学，智能与计算学院）其他作者： Yiming Chen（华硕智能云服务，新加坡；与第一作者贡献相等），Wenhuan Lu（天津大学，智能与计算学院），Daipeng Zhang（天津大学，智能与计算学院），Xianghu Yue（天津大学，智能与计算学院） 💡 毒舌点评亮点：这篇论文堪称“音频大模型照妖镜”，首次系统性地给当前火热的LALMs做了一次全面的“幻觉体检”，设计了各种刁钻的“听力测试题”（对抗性提示、混合音频），揭露了它们“一本正经胡说八道”或“该答却拒答”的多种病症，为领域提供了急需的诊断工具。槽点：主要是个“体检报告”而非“治疗方案”，它精确诊断了问题但并未提出新的缓解方法。另外，部分任务（如单词顺序判断）可能过于依赖模板，模型或许能通过“猜”而非真正“听”来应付。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/Feiyuzhao25/halluaudio 数据集： HalluAudio基准测试数据集已随代码开源，包含所有QA对和音频引用。模型权重：本文不涉及新模型的训练，因此不提供模型权重。评估的是已有的公开或闭源模型。在线Demo：论文中未提及在线Demo。依赖的开源工具/模型：评估中使用了多个开源LALM，如Qwen-Audio, Qwen2-Audio, Llama-Omni, MiMo-Audio等（详见附录D）。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALM）中普遍存在的“幻觉”问题（即生成与音频证据不符的内容）缺乏系统性评估工具的难题。为此，作者构建并发布了HalluAudio，这是首个大规模、多领域（语音、环境声、音乐）、多任务（二分类、多选、属性验证、开放生成）的人工验证音频幻觉检测基准，包含超过5700个精心设计的QA对。其关键方法是通过对比性/对抗性提示和混合音频条件来系统性地诱发幻觉，并设计了一套包含准确性、是/否偏差、错误拒绝率和错误类型分析的多维度评估框架。通过对12个主流开源和闭源LALM的全面评估，论文发现：1）幻觉是普遍且领域依赖的系统性问题；2）即使在标准基准上表现优异的模型，在HalluAudio上也可能因声学定位、时序推理或音乐属性理解等缺陷而失败；3）模型存在显著的是/否回答偏差和不合理的拒绝行为。这项工作为评估和提升LALM的可靠性提供了关键的基础设施和深入的实证洞察。 🏗️ 模型架构注意：本文的核心贡献是提出一个评估基准（Benchmark），而非一个新的模型架构。因此，本节将详细描述该基准测试的整体架构和评估流程。整体架构（评估管线）：如图1所示，HalluAudio的评估是一个模块化、端到端��流程，旨在系统性地引发、测量和分析LALM中的幻觉。输入层：从语音（Common Voice）、环境声（FSD50K）、音乐（GTZAN, Mridangam）数据集中选择音频片段。任务构建层：对每个音频，使用参数化提示模板生成问题。模板包含可替换的槽位（如单词、标签），通过填充有效或无效的属性来生成“可回答”或“故意不可回答”的查询，以诱发不同类型的幻觉。模型推理层：将构建好的“音频-问题”对输入到待评估的LALMs中，采用零样本协议，模型输出为文本。输出标准化层：由于模型输出形式多样（如“是的”、“Yes.”、“确实如此”），需要通过文本处理（小写化、去标点、关键词匹配）将其标准化为结构化标签（如Yes, No, 数字, Refusal）。有效性检查与行为分析层：将标准化后的输出与标准答案进行比对，计算各项指标（准确率、是/否偏差、错误拒绝率等），并进行细粒度的错误类型分析（如幻觉性肯定回答、错误的任务 grounding 答案、错误拒绝）。关键设计选择理由：参数化模板：确保生成大规模、可控且与音频内容精确对齐的QA对。对比性/对抗性构造：通过最小化修改（如改变单词顺序、引入噪声）创建正负对比样本，以孤立出引发幻觉的具体触发器。多领域覆盖：确保评估的全面性，因为模型在不同音频域（语言 vs. 非语言）可能表现出不同的幻觉模式。多维度指标：超越简单的准确率，诊断模型的行为偏差（如盲目肯定）和保守性偏差（如过度拒绝）。 💡 核心创新点首个大规模、多领域音频幻觉基准：提出了HalluAudio，这是第一个专门针对音频（涵盖语音、环境声、音乐）的、大规模（>5K QA对）、经过人工验证的幻觉检测基准，填补了该领域的关键空白。系统性的幻觉诱导方法：创新性地设计了对比性任务（如单词顺序、声音共存）和对抗性/无效查询（如询问不存在的说话者性别、随机声音标签），以主动、可控地触发模型的各类幻觉行为（虚构、证据矛盾、无根据肯定）。多维度诊断评估框架：提出了一套超越准确率的评估指标，包括是/否偏差测试（Yes-p Ratio, Unrelated Ratio, Conditional Accuracy）和错误拒绝率，能够细粒度地区分模型的不同失败模式（如感知错误、推理错误、过度保守）。深入的跨模型与跨领域实证分析：对12个具有代表性的开源和闭源LALM进行了首次大规模、跨领域的对比评估，揭示了幻觉行为的领域特异性（如语音中的结构幻觉、环境声中的感知幻觉）和模型特异性，为未来模型改进提供了明确方向。 🔬 细节详述数据集构建：来源：语音（Common Voice）、环境声（FSD50K）、音乐（GTZAN, Mridangam Strokes, Mridangam Tonics）。规模：总计5720个QA对。其中，语音域任务最丰富（包括重叠检测、词序、计数、无效查询等），环境声音侧重存在性与共现性，音乐侧重乐器/流派识别与比较。流程：五步管线：1) 音频选择；2) 模板生成；3) 对比/对抗构造；4) 人工验证（三轮，Cohen‘s κ=0.91）；5) 打包与平衡。关键设计：包含2662个对比性任务和621个明确的对抗性/无效查询，57.4%的数据旨在通过控制扰动或证据缺失来探测幻觉。评估指标：准确性：标准任务准确率。是/否偏差测试： Yes-p Ratio: 在二元问题中回答“Yes”的比例。 Unrelated Ratio: 在回答错误的样本中，模型给出与问题无关答案的比例。 Conditional Accuracy: 基于预测类别（Yes/No）划分的条件准确率。错误拒绝率：模型拒绝回答可回答问题的比例。评估模型：共12个模型，包括2个闭源（GPT-4o-Audio, Gemini-2.5-Flash）和10个开源模型（如Qwen系列、Llama-Omni系列、MiMo-Audio、Step-Audio-2等）。关键发现（实验数据）：语音域： MiMo-Audio和Step-Audio-2在时序任务上表现优异（如重叠检测准确率>96%），而Qwen-Audio、Pengi等在某些子任务上低于50%。Phi-4在噪声和性别扰动下性能下降。环境声域： MiMo-Audio和Qwen2.5-Omni在时序比较任务上领先。Audio Flamingo3和Pengi在多标签识别上表现不佳。模型在“随机错误”提示下行为分化：一些自信地幻觉，另一些则过度拒绝。音乐域： GPT-4o-Audio和MiMo-Audio相对稳健，而Pengi和Qwen2-Audio在流派/乐器识别上接近随机水平。在计数和排序任务上，模型普遍表现不佳（如Gemini-2.5-Flash低于15%）。是/否偏差： Qwen系列模型在跨域任务中表现出强烈的肯定回答倾向。在环境声任务中，这种偏差最明显。错误拒绝： Gemini-2.5-Flash和Qwen2-Audio表现出最严重的过度拒绝倾向，尤其在结构复杂的任务（计数、速度比较）和感知不确定的任务（声音共存）中。 📊 实验结果主要指标对比（表格数据复述）： ...

Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #语音合成 #语音识别 #音频大模型 #预训练 #强化学习 🔥 评分：9.5/10 | arxiv 👥 作者与机构论文作者：Qwen Team (通义千问团队) 核心贡献者：Bing Han, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Jin Xu, Jianxin Yang, Jingren Zhou, Keqin Chen, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zhifang Guo, Zishan Guo, Ziyang Ma 等（按字母顺序排列，*表示通讯作者）所属机构：根据作者姓名和项目背景推断，主要来自阿里巴巴达摩院（DAMO Academy）和阿里云。论文未明确标注机构，但“Qwen Team”和“Alibaba Cloud”是明确的线索。 💡 毒舌点评亮点：这是一份堪称“全模态大模型工程教科书”的技术报告，从架构设计（混合MoE、ARIA）、训练策略（三阶段预训练、四阶段后训练）到评测体系（215个任务）都展现了无与伦比的系统性和工程实力，性能直接对标并超越了Gemini Pro，证明了中国团队在顶级多模态竞赛中的硬实力。槽点：论文读起来像一份极其详尽的“产品说明书”和“实验报告”，技术细节虽多，但对于“为什么这样设计”的深层科学原理探讨略显不足，更像是在展示“我们做到了”，而非完全解释“我们为何能以及如何想到的”。此外，不开源核心代码和模型，让学术社区只能“望API兴叹”。 ...

Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models

📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频问答 #知识蒸馏 #音频大模型 #数据集 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Longhao Li (龙浩李)（西北工业大学计算机学院，语音与语言处理组 ASLP@NPU）通讯作者：Lei Xie (谢磊)（西北工业大学计算机学院，语音与语言处理组 ASLP@NPU），其邮箱 lxie@nwpu.edu.cn 在摘要中列出。其他作者： Hongjie Chen (陈鸿杰)（中国电信人工智能研究院 TeleAI） Zehan Li (李泽汉)（西北工业大学计算机学院，ASLP@NPU） Qihan Hu (胡启涵)（西北工业大学计算机学院，ASLP@NPU） Jian Kang (康健)（西北工业大学计算机学院，ASLP@NPU） Jie Li (李杰)（西北工业大学计算机学院，ASLP@NPU） Yongxiang Li (李永祥)（西北工业大学计算机学院，ASLP@NPU） 💡 毒舌点评亮点：构建了一套“授人以渔”的自动化数据炼金术（Cogito-Pipe），并用“自己教自己”的自蒸馏方法让模型学会了深度思考，效果立竿见影，在开源阵营里算是“卷”出新高度。槽点：评估推理质量的“裁判”（GPT-4o）自己就是个闭源黑盒，用它来评判开源模型的推理逻辑是否严谨，总感觉有点“让厨师长评菜品”的味道，公平性存疑。 🔗 开源详情代码：论文中提到将发布代码，但未提供具体GitHub链接。文中提及使用了ms-swift训练框架（https://github.com/modelscope/ms-swift）。模型权重：基于Qwen3-Omni-Thinking，该模型本身是开源的。Audio-Cogito的微调权重计划发布。数据集：承诺发布一个包含545k高质量音频推理样本的数据集，涵盖声音、语音、音乐多个领域。具体发布平台未说明。预训练权重：使用Qwen3-Omni-Thinking的公开预训练权重作为起点。在线Demo：论文中未提及。引用的开源项目：论文中引用了多个开源模型和数据集，如Qwen系列、AudioSet、Clotho、AudioCaps等。 📌 核心摘要本文旨在解决大型音频语言模型（LALMs）在复杂音频推理任务中能力不足、推理过程不透明的问题。核心贡献是提出了一个名为 Audio-Cogito 的完全开源解决方案，其核心是一个四阶段的自动化数据构建管道 Cogito-Pipe，用于生成高质量、多样化的音频推理链（CoT）数据。关键方法是利用Cogito-Pipe构建了包含545k样本的大规模数据集，并采用自蒸馏策略，使用同一模型（Qwen3-Omni-Thinking）进行推理数据生成和后续微调，确保了推理模式的一致性。主要发现表明，在专门评估推理过程的MMAR基准上，Audio-Cogito在开源模型中取得了SOTA性能，平均准确率达71.70%，其推理质量指标（Rubrics 62.22%， CRS 0.87）也优于所有基线，性能接近Gemini 2.5 Pro等顶级闭源模型。实际意义在于为社区提供了一个可复现的、用于提升音频模型深度推理能力的完整框架和数据资源，推动了音频智能从感知向认知迈进。局限性在于其数据生成和质量验证仍部分依赖于其他强大的闭源模型（如Qwen3-Omni, GPT-4o）。 ...

Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分：9.5/10 | arxiv 👥 作者与机构第一作者： Xiang He (腾讯AI Lab, 北京) 通讯作者： Li Liu (香港科技大学（广州）), Dong Yu (腾讯AI Lab, 北京) 其他作者： Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评亮点：这篇论文最“性感”的地方在于它证明了在音频领域，像教婴儿学走路一样，不需要手把手教（监督微调），只需要给对“奖励信号”（混合相似度奖励），模型自己就能在探索中“悟”出如何推理，而且悟性还特别好（SOTA）。槽点：依赖一个巨大的外部LLM（Qwen3-235B）作为奖励评估器，训练成本恐怕不菲，有点像请米其林三星大厨来给家常菜打分，效果虽好但难以普及。另外，参考推理链本身也依赖其他大模型生成，属于“站在巨人的肩膀上再创造”，原创性在数据层面稍打折扣。 🔗 开源详情代码：论文中提到“代码和数据将开源”，但未提供具体链接或时间表。当前未开源。模型权重：未提及发布训练后的Audio-DeepThinker模型权重。数据集：构建的训练数据（D1, D2）将随代码一同开源，但当前未发布。预训练权重：基于开源的Qwen3-Omni-30B-A3B-Instruct模型。在线Demo：未提及。引用的开源项目：依赖Qwen3-Omni、DeepSeek V3.1、BGE-M3等模型，以及SWIFT、Megatron-LM等训练框架。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALMs）缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量，要么使用粗糙的奖励，导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架，其核心贡献有三：1）设计了一种混合推理相似度奖励，结合LLM评估（逻辑、深度）和嵌入相似度（语义对齐），直接对推理链内容进行细粒度监督；2）提出了一个渐进式两阶段RL课程，首先在基础音频QA数据上通过纯RL探索激发基本推理模式，然后在声学边界案例上使用更灵活的奖励进行增强，全程无需监督推理微调；3）进行了深入的机理分析，揭示RL训练主要重塑上层MoE门控机制，且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能，证明了通过精心设计的奖励和课程，高质量的音频推理能力可以从RL探索中涌现。 ...

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频大模型 #模型评估 #对抗样本 #基准测试 #音频安全 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Jaechul Roh（推断，基于论文作者顺序和邮箱前缀）通讯作者：Amir Houmansadr（麻省大学阿默斯特分校，计算机科学系）其他作者：无（本文为双作者论文）所属机构：University of Massachusetts Amherst（麻省大学阿默斯特分校），计算机科学系。 💡 毒舌点评亮点：这篇论文像一把精准的手术刀，首次剖开了音频大模型“安全对齐”的脆弱内脏——原来不用投毒，光喂“健康食品”（良性数据）就能让它对“坏指令”言听计从。其“邻近性分解”框架巧妙地将模糊的“相似”拆解为“说了啥”和“听着像啥”，并发现这居然取决于模型“耳朵”（编码器）的构造，洞察深刻。槽点：研究聚焦于英语单轮问答，像是在无菌实验室里测试病毒的威力，现实世界中多语言、多轮次、带背景噪音的“培养皿”会怎样？防御手段（系统提示）虽有效，但像个事后补的“道德补丁”，模型本身的“先天缺陷”如何从架构上根治？ 🔗 开源详情代码：论文提及提供了GitHub仓库（https://github.com/…），但未在正文给出完整链接。推测包含用于邻近性过滤和实验复现的代码。模型权重：论文中评估的三个模型（AF3, Kimi-Audio, Qwen2.5-Omni）均为公开的SOTA模型，其预训练权重可在Hugging Face等平台获取。微调后的模型权重未提供，以防滥用。数据集：使用的良性数据集（SD-QA, GC Accents, MMSU, MELD）和有害数据集（AdvBench, SafetyBench）多为公开基准。论文未提及发布新数据集。预训练权重：未提供，依赖于上述公开模型。在线Demo：未提及。引用的开源项目：依赖的主要开源工具/模型包括：Whisper (编码器), Sentence-BERT, WavLM, Hugging Face Transformers库, LoRA实现等。 📌 核心摘要这篇论文首次系统研究了良性音频数据微调对音频大模型安全对齐的破坏性影响。核心问题是：用户出于提升性能的目的，在完全无害的音频数据上微调模型，是否会意外削弱其拒绝有害指令的能力？作者提出了一个基于嵌入空间邻近性的过滤框架，通过计算良性音频与有害音频在模型内部或外部参考编码器空间中的距离，来选择性地构建微调数据集。实验在三个SOTA模型上进行，发现：1）良性微调能显著提升越狱成功率，在邻近性过滤下，JSR从个位数飙升至87.12%；2）主导的脆弱性轴（语义或声学）是架构依赖的，由音频编码器如何将声音映射到LLM输入空间的方式决定；3）防御是可行的，通过“远距离过滤”训练数据或在推理时添加安全系统提示，可将JSR降至近零。研究揭示了音频大模型安全与文本/视觉模型的结构性差异，强调了模态感知的安全评估和数据筛选的必要性。 🏗️ 模型架构论文本身并未提出新模型，而是对三个现有SOTA音频大模型进行安全分析。其整体分析流程和涉及的模型架构如下：输入：原始音频波形。音频编码器（冻结）：将波形转换为高级表示。 Audio Flamingo 3 (AF3)：使用Whisper编码器，后接一个两层MLP投影器，将音频特征压缩后输入LLM。 Kimi-Audio-7B：采用双编码器设计，包含一个WhisperVQEncoder（通过矢量量化引入瓶颈）和一个Whisper-Large-V3编码器。 Qwen2.5-Omni：使用Whisper-Large-V3编码器，其输出以“直通”方式（无压缩投影）输入LLM。大语言模型（部分参数通过LoRA微调）：接收音频编码器的输出（可能经过投影），生成文本响应。三个模型的LLM骨干均基于Qwen2.5-7B。输出：文本形式的回答（可能包含拒绝信息或有害内容）。安全对齐：模型在预训练后经过安全对齐训练，使其能拒绝有害文本指令。这种对齐主要针对文本表示空间，对音频输入产生的表示可能覆盖不足。数据流：音频 → [冻结的音频编码器] → [可选的投影层] → [LLM（部分参数通过LoRA更新）] → 文本输出。关键设计选择：论文的核心发现在于，不同音频编码器架构（压缩式、量化瓶颈式、直通式）决定了良性微调数据在嵌入空间中的“邻近性”如何影响安全边界，从而导致了差异化的安全脆弱性。 ...

From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

📄 From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench #语音对话系统 #基准测试 #音频大模型 #模型评估 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者：Ke Xu (上海交通大学) 通讯作者：根据联系邮箱 {overji1, colane, yuwangsjtu}@sjtu.edu.cn 推断，三位作者均来自同一机构，论文未明确指定唯一通讯作者。其他作者：Yuhao Wang (上海交通大学), Yu Wang (上海交通大学) 所属机构：上海交通大学 (Shanghai Jiao Tong University) 💡 毒舌点评亮点：精准地抓住了当前语音代理“只会接话不会读空气”的痛点，设计了一套系统、严谨的“主动性”考卷（ProVoice-Bench），数据合成流水线考虑周全（从数字上下文到环境音效），实验揭示了模型“乱接话”和“想太多”的普遍毛病，对领域有明确的指导价值。槽点：本质上是一篇“出题+阅卷”的评估论文，没有提出新的“解题”模型或算法。创新停留在任务定义和数据层面，深度略显不足。依赖现有的TTS和LLM来构建数据，其质量上限受限于这些生成模型本身。 🔗 开源详情代码：论文明确表示代码将在GitHub上开源，并提供了链接：https://github.com/...（论文中为占位符，实际应指向仓库）。模型权重：不适用（本文是评估基准，不发布新模型）。但评估中使用的被模型（如Qwen3-Omni）是公开的。数据集：ProVoice-Bench数据集承诺将在Hugging Face上开源。包含1182个样本，覆盖四个任务，平衡正负例。预训练权重：不适用。在线 Demo：论文中未提及。引用的开源项目：论文中提及并依赖了多个开源项目/模型，包括：Qwen3-Max（用于生成数字状态）、CosyVoice3（TTS）、seed-tts-eval（音色提示）、ESC-50（环境音）、CochlScene（环境噪声）、Qwen3-80B（作为评判模型）。 📌 核心摘要本文旨在解决现有语音代理评估基准主要关注被动响应，而忽略其主动感知与干预能力的问题。作者提出了ProVoice-Bench，这是首个专门用于评估主动式语音代理的基准测试框架。该框架通过一个包含数字状态构建、场景合成、对话生成、声学模拟和对话组装的多阶段数据合成管道，构建了包含1182个高质量样本的数据集，并定义了四项核心主动任务：主动意图捕获（PIC）、潜在话题监控（LTM）、上下文事实核查（CFC）和环境声音感知（ESS）。对多个先进多模态大语言模型（如Qwen3-Omni, Step-Audio-R1）的评估结果显示，当前模型普遍存在过度触发（over-triggering）问题，且在“决定何时说话”与“决定说什么”之间存在显著差距。该工作为开发更自然、上下文感知的主动式语音助手提供了清晰的评估标准和未来路线图。 🏗️ 模型架构本文没有提出新的模型架构，而是提出了一个评估框架（Benchmark）。该框架用于测试现有的多模态大语言模型（MLLMs）作为主动语音代理的表现。评估流程：输入：对于每个测试样本，输入包括：对话音频 (C_a) 和用户数字上下文 (D_c)（如手机应用状态）。模型处理：被评估的MLLM（如Qwen3-Omni）接收这些多模态输入。输出：模型需要产生两个输出：工具调用请求 (T_p) 和文本响应 (R_p)。评估：将模型的输出与样本的语义线索 (S_c)、标准工具调用 (T_g) 和标准响应 (R_g) 进行比较，计算主动交互预测指标（准确率、召回率、误报率）和响应准确率。核心设计：该框架的核心是定义了四种需要模型进行“主动决策”的任务场景（PIC, LTM, ESS, CFC），每个场景都精心设计了触发或不触发主动交互的条件，以此来测试模型的上下文理解和时机判断能力。 💡 核心创新点定义了主动式语音代理的评估范式：首次系统性地将语音代理的评估从“被动响应”扩展到“主动感知与干预”，明确了主动性的核心维度（意图推断、话题监控、事实核查、声音感知）。构建了高质量、多任务的基准测试集ProVoice-Bench：通过创新的多阶段数据合成管道，生成了1182个包含音频、数字上下文、语义线索和标准答案的高质量样本，覆盖了四大主动任务，并平衡了正负样本。设计了针对主动性的综合评估指标：不仅评估模型是否做出交互决策（准确率、召回率、误报率），还通过“响应准确率（R_acc）”评估决策后行动的正确性，并引入LLM-as-a-Judge进行细粒度评价。揭示了当前先进模型的系统性缺陷：通过实验证明，即使是顶级的多模态大模型，在主动交互任务上也存在严重的“过度触发”问题，且在复杂分析任务（如CFC）中表现不佳，为未来研究指明了方向。 🔬 细节详述训练数据：本文是评估工作，不涉及模型训练。但其测试数据构建流程极为详细：数字状态构造：使用Qwen3-Max根据从dialog-topics数据集随机选取的主题，合成包含隐式线索（如日程、饮食限制）的细粒度手机应用状态。场景合成：LLM基于数字状态、任务类型和可用工具，生成包含触发线索、对话上下文和时间元数据的场景。对话生成：使用CosyVoice3 TTS模型，以seed-tts-eval中的人类语音为音色提示，生成多说话人对话。环境音事件来自ESC-50数据集。声学模拟：对音频进行归一化（-20 dBFS）、远场模拟（3dB高频衰减、4dB能量衰减）、混响添加（随机房间脉冲响应，湿干比0.3）。对话组装：对话间隔从高斯分布采样（一般对话：μ=0.75s, σ=0.35s；ESS任务：μ=10.0s, σ=1.66s），并叠加从CochlScene数据集随机选取的环境噪声。损失函数：不适用（评估工作）。训练策略：不适用。关键超参数：数据合成中使用的声学参数（如RMS目标、滤波参数、混响湿干比、时间间隔分布参数）。推理细节：论文未详细说明被评估模型的具体推理参数（如温度、beam size）。数据增强：声学模拟部分（混响、噪声添加）可视为一种针对测试数据的增强，以提高评估的真实性。 📊 实验结果主要指标对比表（表1 & 表2 关键数据复述）：模型在各项任务上的表现（Overall R_acc / Acc）： Qwen3-Omni(T): CFC (0.826/0.838), LTM (0.792/0.832), PIC (0.734/0.775), ESS (0.617/0.620), 总体 (0.759/0.787)。 Step-Audio-R1(T): CFC (0.806/0.828), LTM (0.741/0.804), PIC (0.722/0.822), ESS (0.587/0.607), 总体 (0.734/0.793)。 Mimo-Audio(T): CFC (0.615/0.778), LTM (0.462/0.588), PIC (0.663/0.800), ESS (0.586/0.644), 总体 (0.596/0.729)。关键发现：所有模型在LTM任务上的误报率（FPR）普遍很高（如Step-Audio-R1为0.920），表明“过度触发”严重。使用思维链（CoT）提示（标记为(T)）能显著提升大多数模型在CFC、LTM和PIC上的性能。消融实验（图3 - 数字上下文影响）：移除数字上下文（w/o DC）后，CFC任务的Recall急剧下降（例如Qwen3-Omni从0.433降至接近0），因为无法核对事实。 PIC任务的Recall和R_acc也明显下降（例如Qwen3-Omni(T)的Recall从0.578降至0.443），因为难以推断隐式意图。这证明了数字上下文对于特定主动任务至关重要。 ⚖️ 评分理由创新性：7/10 - 创新点在于定义了全新的评估任务和范式，并构建了高质量的基准数据集，这在AI评估领域是重要贡献。但未涉及模型算法本身的创新。实验充分性：8/10 - 实验设计非常全面。数据合成流程描述极其详细，可复现性强。对比了多个主流先进模型，包含了消融实验（数字上下文的影响），指标设计合理（兼顾决策和执行）。结论有充分数据支撑。实用价值：8/10 - 直接面向构建更智能、更主动的语音助手这一实际需求，填补了关键评估空白。其揭示的问题（如过度触发）对业界开发有直接指导意义。基准的开源将有力推动该方向研究。灌水程度：2/10 - 论文内容紧凑，聚焦核心贡献。方法描述、实验设置和结果分析都详尽扎实，没有明显的冗余或夸大表述。是一篇高质量的评估论文。 🖼️ 图片与表格图1: 四个主动任务的示例对话 | 保留: 是 - 直观展示了PIC、LTM、CFC、ESS四个任务的核心交互模式，是理解论文任务定义的关键。图2: (a) ProVoice-Bench数据分布饼图; (b) 数据合成五阶段流水线示意图 | 保留: 是 - (a)图清晰展示了数据集的构成（各任务正负样本数量），(b)图是论文核心方法（数据构建）的流程总览，非常有价值。图3: 移除数字上下文（DC）对CFC和PIC任务关键指标影响的柱状图 | 保留: 是 - 这是核心消融实验的结果图，直观证明了数字上下文的重要性，支撑了论文的关键结论。表1: 不同模型在ProVoice-Bench各项任务上的主动交互预测指标（Rec, FPR, Acc） | 保留: 是 - 这是核心结果表之一，包含了所有模型在三个关键决策指标上的详细数据，必须保留。表2: 不同模型在ProVoice-Bench各项任务上的响应准确率（R_acc） | 保留: 是 - 这是另一个核心结果表，评估模型决策后的执行质量，与表1互补，必须保留。 📸 论文图片 ...

ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者（推断）：Benjamin Chou（普渡大学，Purdue University）通讯作者（推断）：Yi Zhu（Reality Defender Inc.），Surya Koppisetti（Reality Defender Inc.）其他作者：无机构详情： Benjamin Chou：普渡大学（Purdue University），论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu：Reality Defender Inc.（美国/加拿大，邮箱后缀为@inrs.ca，INRS为加拿大魁北克大学研究所）。 Surya Koppisetti：Reality Defender Inc.。 💡 毒舌点评亮点：把大模型（ALM）的“思考”能力用在了音频安全这个“脏活累活”上，还搞出了个“左右互搏”（PCR）的套路让模型自己挑刺、去伪存真，思路相当清奇，结果在真实世界数据上效果拔群。槽点：最好的“厨师”（Phase-1证据生成）用的是谷歌的“秘制酱料”（Gemini），自己家“厨房”（开源ALM）的灶台还没完全搭好（AF3指令遵循差），让想完全复刻这道菜的人有点抓瞎。而且，这“秘制酱料”在处理“罐头食品”（脚本语音）时，味道反而不对了。 🔗 开源详情代码：论文提到“GitHub”链接，但未在正文中给出具体URL。未明确说明是否开源。模型权重：专用检测器：使用的Wav2Vec2-AASIST是公开的预训练模型。 ALM：主要实验使用专有的Gemini-2.5 Flash API。评估了开源的Audio Flamingo 3 (AF3) 模型权重。 ICLAD本身：未提及发布任何ICLAD特有的模型权重。其“模型”本质上是提示策略和流程。数据集：使用的均为公开学术数据集（ASVspoof 2019/2021, MLAAD, ITW, SpoofCeleb, DFEval 2024），并提供了详细的分割和许可证信息。预训练权重：Phase-1证据库依赖Gemini生成，非可下载的预训练权重。在线Demo：未提及。引用的开源项目：faiss（用于k-NN）， lm-format-enforcer, xgrammar（用于尝试约束AF3输出）。 📌 核心摘要本文针对音频深度伪造检测模型在真实场景（in-the-wild）中泛化能力差的核心问题，提出了一种名为ICLAD的全新范式。该框架利用音频语言模型（ALM）的上下文学习能力，实现了无需训练的快速适应。其核心是创新的成对比较推理策略：在离线阶段，引导ALM为每个样本同时生成“真实”和“伪造”的证据，再结合真实标签进行证据调和，生成高质量、去幻觉的文本解释库；在线推理时，通过检索最相似的样本及其证据作为上下文，并结合一个动态路由机制，将分布内样本交给专用检测器处理，将分布外（真实场景）样本交给ALM进行推理。实验表明，ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器（宏F1最高提升近2倍），并能提供可解释的文本理由。然而，该方法在脚本语音数据集上性能有所下降，且其最佳性能依赖于专有模型Gemini。 ...

LLM-Codec: Neural Audio Codec Meets Language Model Objectives

📄 LLM-Codec: Neural Audio Codec Meets Language Model Objectives #语音大模型， #预训练， #基准测试， #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Ho-Lam Chung (台湾大学通信工程研究所，华硕智能云服务) 通讯作者：Hung-yi Lee (台湾大学人工智能卓越研究中心) 其他作者：Yiming Chen (华硕智能云服务) 💡 毒舌点评亮点：精准地抓住了语音令牌化领域“重建质量”与“语言模型可预测性”之间的核心矛盾，并用一套设计精巧、实验扎实的“组合拳”（FTP+SA+Gumbel桥）漂亮地解决了问题，效果拔群。槽点：方法依赖语音-文本对齐（SA），这在非语音音频或无转录数据上就成了“阿喀琉斯之踵”，限制了其通用性；另外，训练时需要额外的前向传播和辅助模块，对计算资源是个小考验。 🔗 开源详情代码与模型：论文明确承诺将开源，GitHub仓库地址为 https://github.com/voidful/llm-codec。截至论文阅读时（v1版本），代码和模型权重尚未发布。预训练权重：基于AUV编码器和Qwen3-4B-Instruct语言模型进行微调。预计开源时会提供微调后的编码器权重。在线Demo：论文中未提及。依赖的开源项目：论文中引用了多个开源项目作为基线或组件，包括：AUV编码器、Qwen3大语言模型、EnCodec、SoundStream、BigCodec、UniCodec、WavTokenizer、LibriSpeech数据集、Codec-SUPERB评估工具、SALMon评估基准等。 📌 核心摘要本文旨在解决语音语言模型（SLM）中一个根本性矛盾：神经音频编码器以波形重建为目标进行优化，而语言模型以序列预测为目标进行优化，这种目标不匹配导致生成的离散语音令牌熵值高、难以预测。为此，作者提出了LLM-Codec训练框架，在不改变编码器和语言模型架构的前提下，通过引入两个面向语言模型的正则化目标来重塑编码器：1）未来令牌预测（FTP），使用Medusa风格的多头结构预测多个未来令牌，鼓励令牌序列的局部可预测性；2）语义对齐（SA），通过对比学习将语音在冻结LLM中的隐藏状态与对应文本的隐藏状态对齐，确保令牌的语义一致性。一个可微分的Gumbel桥使得梯度能够端到端地回传至编码器。实验表明，LLM-Codec在SALMon语音连贯性基准上达到61.6%的准确率（比基线AUV高12.1个百分点），并将令牌级困惑度降低了35倍，同时在Codec-SUPERB-tiny基准上将语音Mel距离提升了5.0%，证明了重建质量与令牌可学习性可以协同提升。 🏗️ 模型架构 LLM-Codec的整体架构是一个增强型的神经音频编码器，其核心是在标准编码器-量化器-解码器流程中，插入了面向LLM的训练模块，并通过一个可微分的桥接器与冻结的LLM主干连接，实现端到端训练。完整输入输出流程：输入：原始音频波形 x。编码与量化：音频 x 通过编码器 ℰ 得到连续潜变量 z，再通过量化器 𝒬（使用Gumbel-Softmax桥接）得到离散令牌 c。 LLM处理：离散令牌 c 通过音频令牌嵌入层 E_audio 转换为嵌入向量，输入到冻结的LLM主干（如Qwen3-4B）中，得到各层的隐藏状态 {h_t}。辅助任务计算：未来令牌预测（FTP）：在LLM的最后一个隐藏状态上，连接K个Medusa头（线性层 M_k），分别预测当前时刻之后第k个未来令牌。语义对齐（SA）：从LLM的中间到高层（如第10-25层）提取语音序列的最后隐藏状态 h_audio，与对应文本通过相同且冻结的LLM得到的最后隐藏状态 h_text 进行对齐（余弦损失+对比损失）。重建输出：离散令牌 c 通过解码器 𝒟 重建为音频波形 x̂。损失计算与反向传播：总损失 ℒ_total 包含重建损失 ℒ_codec、桥接损失 ℒ_bridge、FTP损失 ℒ_FTP、语义对齐损失（ℒ_cos + ℒ_ctr）。梯度通过Gumbel桥反向传播至编码器 ℰ，从而优化编码器使其产生对LLM更友好的令牌。主要组件与设计理由： ...

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation #语音翻译 #混合专家模型 #音频大模型 #少样本 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Szu-Chi Chen (台湾大学，国立台湾大学) 通讯作者：Hung-yi Lee (台湾大学，国立台湾大学；根据贡献和常见通讯作者习惯推断) 其他作者： I-Ning Tsai (台湾大学，国立台湾大学) Yi-Cheng Lin (台湾大学，国立台湾大学) Sung-Feng Huang (NVIDIA，英伟达台湾) 💡 毒舌点评亮点：精准抓住了S2ST“翻译了语义，却丢失了灵魂（笑声/哭泣）”这个长期痛点，并用一套从数据到模型的组合拳（合成数据管道+MoE架构+两阶段训练）系统性地解决了它，效果拔群，NV保留率从14%飙升到76%。槽点：数据合成依赖于现有的情感TTS和过滤器，可能引入合成偏差；目前只聚焦于五种特定情感/声音，离建模人类全部复杂细腻的情感光谱还有距离。 🔗 开源详情代码：论文未明确提及代码是否开源。模型权重：论文未明确提及预训练或微调后的模型权重是否公开。数据集：承诺开源。将发布一个1000小时的合成表达性S2ST语料库（En-Zh），包含五种情感/非语言声音类别。在线Demo：承诺提供。访问地址：https://47zzz.github.io/MoVE/。预训练权重：基于Kimi-Audio-7B-Instruct，但该基础模型的权重是否由作者提供未知。引用的开源项目：使用了Whisper（编码器和ASR评估）、IndexTTS2（合成引擎）、Librosa（音频处理）、多个情感语音数据集（CREMA-D, MSP-IMPROV, IEMOCAP, JVNV）。 📌 核心摘要这篇论文旨在解决语音到语音翻译（S2ST）系统普遍缺失非语言声音（如笑声、哭泣）和情感韵律的问题，这严重限制了跨语言交流的自然度和语用准确性。作者提出了三大贡献：1) 一个可扩展的表达性数据合成管道，能自动生成高质量、带情感标注的S2ST训练对，克服了数据稀缺瓶颈；2) MoVE（混合声音专家）架构，基于预训练音频大模型（Kimi-Audio），通过并行多个情感特化的LoRA适配器和一个动态软加权路由器，实现了对混合情感状态的精细建模，避免了特征干扰；3) 揭示了惊人的数据效率，仅需30分钟的精选数据微调，就能激活预训练模型的强大潜力，达到接近全量数据95%的情感保真度。实验表明，MoVE在英中翻译任务上，在语义准确性和非语言声音保留率（76%）上均大幅超越现有SOTA系统，并获得了最高的人工评价自然度和情感相似度分数。 🏗️ 模型架构 MoVE架构建立在预训练的音频大模型Kimi-Audio之上，其核心流程如下：输入：源语言语音波形。编码与离散化：语音首先通过一个Whisper编码器（经过在表达性数据集上微调）提取高级语义和声学特征。同时，语音通过音频分词器（Audio Tokenizer）被离散化为一系列语音token。 LLM处理（核心创新）：离散token序列输入到冻结参数的Kimi-Audio LLM主干中。在LLM的每个Transformer层中，注入了五个并行的LoRA专家适配器，分别专精于“高兴”、“悲伤”、“愤怒”、“大笑”、“哭泣”五种声音流形。每个专家独立作用于注意力层和前馈网络的投影矩阵（Wq, Wk, Wv, Wo, Wgate）。一个动态软加权路由器（一个带Softmax的轻量线性层）根据当前token的隐藏状态x，为五个专家的输出计算混合权重g_i(x)。最终层的输出是基础模型权重与所有专家加权输出的和：h(x) = W0*x + Σ g_i(x) * (B_i * A_i * x)。这实现了token级别的、连续的情感混合。解码与生成： LLM输出的离散语音token序列被送入音频解解码器（Audio Detokenizer）。该解码器经过在表达性数据（特别是非语言声音）上的微调，能更好地将token重建为包含丰富情感和非语言声音的目标语言语音波形。输出：保留了源语音情感和非语言声音的目标语言语音。关键设计选择理由： ...

VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech

📄 VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech #模型评估 #音频大模型 #基准测试 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Yi-Cheng Lin (台湾大学通信工程研究所) 通讯作者：Hung-yi Lee (台湾大学通信工程研究所，人工智能卓越研究中心) 其他作者： Yusuke Hirota (NVIDIA，台湾) Sung-Feng Huang (台湾大学通信工程研究所) 机构：国立台湾大学通信工程研究所 (Graduate Institute of Communication Engineering, National Taiwan University) NVIDIA，台湾国立台湾大学人工智能卓越研究中心 (Artificial Intelligence Center of Research Excellence, National Taiwan University) 💡 毒舌点评亮点：这篇论文最巧妙的地方在于“让模型自由发挥”——用开放生成任务代替选择题，就像撤掉考场的栅栏，让模型在真实场景下的“偏见本能”无处遁形。结合真实人声录音，评估框架的设计非常贴近实际应用，比那些用合成语音做选择题的“象牙塔测试”高明不少。槽点：但它的“考场”只设在了英语世界（两个英文数据集），对于口音偏差的评估也仅限于非母语英语者，全球化视角稍显局限。另外，偏差的定义仍集中在“分布差异”上，对于更复杂的个体公平、交叉性公平（如同时考虑性别和口音）探讨不足，算是开了个好头，但远未终结话题。 🔗 开源详情代码与工具：论文明确说明“The VIBE benchmark code and evaluation prompts will be released under an open-source license for reproducibility.” 但未在文中提供具体的GitHub链接。模型权重：VIBE是评估框架，不涉及训练新模型。它评估的是现有的11个LALM，这些模型的权重（如Qwen2-Audio， Phi-4）大多已在Hugging Face等平台公开。数据集：使用了两个公开数据集： CREMA-D：开放数据库许可证（ODbL v1.0）。 L2-ARCTIC：CC BY-NC 4.0许可证。预训练权重：不适用。在线Demo：论文中未提及。引用的开源项目：论文中提到了使用的推理框架vLLM，以及作为提取器的Qwen3-8B模型。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALM）在开放生成任务中社会偏见评估不足的问题。现有基准多依赖合成语音和选择题（MCQ），无法捕捉模型在真实交互中自然流露的刻板印象。为此，作者提出了VIBE框架，其核心是使用真实人声录音输入模型，并通过开放生成任务（如故事创作、个性化推荐）来激发模型的潜在偏见。框架采用“输入音频+任务提示 → LALM生成自由文本 → LLM提取器结构化属性 → 计算组间分布差异（nTVD）”的流程进行量化。通过对11个主流LALM在5个任务上的评估，论文揭示了三个关键发现：1) 偏见具有高度任务依赖性，叙事和推荐类任务更容易引发偏见；2) 没有模型能在所有任务上都保持低偏见；3) 性别线索通常比口音线索引发更显著的输出分布偏移，表明模型复制了社会性别刻板印象。该工作为LALM的公平性评估提供了一个更真实、可扩展的新基准。 ...