AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Zixuan Chen(上海交通大学) 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断) 其他作者: Depeng Wang(蚂蚁集团) Hao Lin(香港中文大学) Li Luo(上海交通大学) Ke Xu(上海交通大学) Ya Guo(蚂蚁集团) Huijia Zhu(蚂蚁集团) 💡 毒舌点评 这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。 📌 核心摘要 这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。 🏗️ 模型架构 论文中提出的基线模型是 AVID-Qwen,其核心架构基于 Qwen3-Omni-30B-A3B-Instruct。 整体输入输出流程: 输入:原始视频文件(包含视频帧和音频流)以及一个文本指令(Prompt)。 预处理: 视觉:视频以12 FPS采样,帧被调整至最大50,176像素(保持宽高比),形成视觉token序列。 音频:直接从视频文件中提取音频流,由音频编码器处理。 模型推理:预处理后的视觉token、音频token与文本指令的token被拼接,输入到一个自回归的大型语言模型(LLM)骨干网络中。 输出:模型自回归地生成文本响应,格式根据任务而定(如检测结果、分类、时间戳、推理文本)。 主要组件: 视觉编码器:一个预训练的视觉特征提取器,将视频帧转换为视觉token。在微调期间被冻结。 音频编码器:一个预训练的音频特征提取器,处理音频流。在微调期间被冻结。 对齐模块:将视觉编码器的输出映射到LLM嵌入空间的适配器。在微调期间被冻结。 LLM骨干:一个约300亿参数(激活30亿)的解码器Transformer。这是微调的主要对象,负责跨模态推理和文本生成。 连接方式与数据流:视觉和音频编码器独立处理各自模态的原始输入,生成特征序列。这些特征序列通过各自的对齐模块(视觉需要,音频可能直接适配)转换为与LLM词嵌入空间兼容的token。这些多模态token与文本指令token拼接成一个长序列,输入LLM。LLM基于这个混合序列进行自回归解码,生成最终文本。 ...

2026-04-19

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

📄 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs #音频理解 #统一音频模型 #强化学习 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Linhao Zhang(腾讯微信AI,基础模型技术中心) 通讯作者:推断为 Houfeng Wang(北京大学计算机科学学院,多媒体信息处理国家重点实验室)和 Xiao Zhou(腾讯微信AI,基础模型技术中心),基于资深作者位置及实验室负责人身份。 其他作者: Yuhan Song(北京大学计算机科学学院,多媒体信息处理国家重点实验室) Aiwei Liu(腾讯微信AI,基础模型技术中心) Chuhan Wu(腾讯微信AI,基础模型技术中心) Sijun Zhang(腾讯微信AI,基础模型技术中心) Wei Jia(腾讯微信AI,基础模型技术中心) Yuan Liu(腾讯微信AI,基础模型技术中心) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点,并一针见血地指出病根在于ASR(语音识别)的“填鸭式”教学——只教认字,不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”,强制它去听语气、听环境,效果立竿见影。 槽点:方法虽好,但“药方”(训练数据)全靠其他模型“合成”,虽然做了人工验证,但终究是“二手信息”,长期来看可能限制模型感知能力的上限。另外,论文主要在高资源语言(中英文)上验证,对于方言或低资源语言的效果还是个问号。 📌 核心摘要 这篇论文旨在解决当前音频大语言模型(AudioLLMs)在细粒度声学感知任务上表现不佳的核心问题。作者指出,主流的以自动语音识别(ASR)为中心的训练范式,通过将音频映射到纯文本转录,系统性地丢弃了副语言学(如情感、语调)和非语言声学事件信息,导致模型成为“语言巨人,听觉矮子”。为此,他们提出了一种统一音频模式(UAS),这是一种结构化的JSON表示,将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分,从而在训练中保留完整的声学线索。基于UAS,作者构建了可扩展的自动数据生成流水线,并训练了UAS-Audio模型。实验表明,UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升,同时保持了强大的推理能力,并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号,是提升AudioLLMs综合能力的有效途径。 🏗️ 模型架构 UAS-Audio的整体架构遵循当前主流的连续表示AudioLLM范式,包含四个核心组件,其输入输出流程如下: 输入:原始音频波形。 输出:文本(如转录、问答、结构化UAS)或生成的语音波形。 核心组件与数据流: 音频编码器:使用AuT (Audio Transformer) 作为连续音频编码器。它将原始波形转换为连续的音频表示向量序列。 投影层:一个简单的线性投影层。它将音频编码器输出的向量映射到与大语言模型(LLM)词嵌入空间对齐的维度。这是连接音频与文本模态的关键桥梁。 大语言模型骨干:采用Qwen2.5-7B作为核心推理引擎。它接收来自投影层的音频特征和文本提示的嵌入,进行自回归解码,生成文本响应。在训练的某些阶段,LLM也被扩展以处理离散音频令牌。 语音解码器:基于流匹配(Flow Matching)架构,并配备HiFi-GAN声码器。当需要语音生成时,LLM输出的离散音频令牌(来自StableToken)被送入此解码器,先转换为梅尔频谱图,再合成最终波形。 训练阶段与模块状态: 阶段1:离散令牌对齐:仅训练LLM的嵌入层和输出头,通过ASR和TTS任务,让LLM学会处理离散音频代码,为语音生成做准备。 阶段2:音频LLM适应:冻结LLM和音频编码器,仅训练投影层。使用UAS标注数据进行训练,使模型从一开始就建立对结构化声学信息的理解。 阶段3:全指令调优:解冻除音频编码器外的所有参数。在混合数据(基础音频数据、UAS标注、UAS-QA)上进行多任务训练,综合提升感知、推理和生成能力。 阶段4:GRPO:使用群体相对策略优化(GRPO) 进行强化学习,进一步提升模型性能。 架构选择理由:该设计复用了经过验证的成熟组件(如Qwen2.5、流匹配解码器),创新点不在于模块本身,而在于如何使用UAS数据来训练这些模块,特别是通过阶段2的针对性适应,避免了模型陷入传统的ASR中心表征。 💡 核心创新点 问题归因创新:明确指出AudioLLMs感知能力薄弱的系统性根源是ASR中心训练范式。该范式在优化语义对齐的同时,隐式地将副语言学和环境声学信息视为“噪声”进行抑制,造成了感知盲区。 监督框架创新:提出统一音频模式(UAS) 作为一个结构化的、全面的监督框架。它将音频信息显式分解为“转录”、“副语言学”(年龄、性别、情感等6个子字段)和“非语言事件”(描述、离散事件、连续事件),迫使模型学习并保留这些通常被忽略的声学维度。 数据工程创新:设计了一个可扩展的、自动化的UAS数据生成流水线。该流水线分三阶段:1)用现成的音频描述模型生成丰富字幕;2)用LLM将字幕与真实转录结合,合成为结构化UAS;3)通过本体约束、转录完整性校验等多级自动化验证确保数据质量。这使得利用现有海量ASR数据集构建感知丰富的训练数据成为可能。 训练策略创新:在训练流程中,专门设计了阶段2(音频LLM适应),在冻结主干的情况下仅用UAS数据训练投影层。这确保了模型在接触复杂任务前,其跨模态对齐的“接口”就已建立在感知丰富的表征之上,而非需要后续“纠偏”的ASR表征。 🔬 细节详述 训练数据: 规模:总计使用了数十万小时的音频数据,约90%为开源数据,10%为内部数据。 主要开源数据集:包括LibriSpeech (960h)、多语言LibriSpeech (27,322h)、GigaSpeech (10,000h)、Yodas (29,155h)、Emilia (96,750h)、AudioSet (4,922h)等,覆盖语音、音乐、环境声。 UAS数据生成:使用Qwen3-30B-A3B-Instruct模型进行字幕到UAS格式的转换,使用Qwen3-235B-A22B-Instruct模型生成UAS-QA对。 损失函数:论文未明确提及特殊的损失函数,主要阶段(1-3)采用标准的自回归交叉熵损失进行序列预测。阶段4的GRPO是一种强化学习策略优化方法。 训练策略与超参数: 优化器:AdamW (β₁=0.9, β₂=0.95),权重衰减为0.1。 学习率调度:采用余弦衰减并带线性预热。 各阶段学习率:阶段1峰值5e-4,阶段2峰值2e-4,阶段3峰值1e-4,阶段4峰值5e-6。 预热步数:阶段1为500步,阶段2和3为1000步,阶段4为200步。 梯度裁剪:1.0。 可训练参数:阶段1和2仅训练投影层;阶段3训练除音频编码器外的所有参数;阶段4同阶段3。 推理细节: 灵活生成:推理时不强制生成完整UAS JSON。支持目标模式(如直接问答)和整体模式(生成完整UAS),用户可通过提示词控制。 语音生成:使用训练好的离散音频令牌和流匹配解码器进行自回归语音合成。 数据增强/正则化:未特别提及,主要依赖大规模数据混合和多任务学习作为隐式正则化。 📊 实验结果 主要指标对比(MMSU, MMAR, MMAU基准): 模型 MMSU MMAR MMAU 平均 感知 推理 总体 语音 离散架构 GLM-4-Voice 11.04 16.16 13.30 34.35 UAS-Audio-D 31.32 48.55 39.66 44.56 连续架构 Kimi-Audio 44.8 75.7 59.8 58.5 Qwen2.5-Omni 42.7 77.6 58.1 59.9 Step-Audio2 42.9 73.2 57.6 61.2 UAS-Audio 55.7 77.4 66.2 66.0 关键发现: ...

2026-04-19

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分:8.8/10 | arxiv 👥 作者与机构 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB) 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing) 其他作者: Kun Wang(浙江大学,ZJU-MUSLAB) Li Lu(浙江大学,ZJU-MUSLAB) Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering) Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云) 💡 毒舌点评 亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。 📌 核心摘要 这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。 🏗️ 模型架构 论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。 1. 被攻击LALM的通用输入输出流程: 现代LALM通常采用端到端架构,直接处理音频输入并生成文本/语音响应。其核心流程如下: 输入:一个组合提示,通常包含: 音频数据:用户上传或参考的音频内容(如录音、音乐)。 用户指令:可以是文本(如“总结这段录音”)或语音(直接说出指令)。 系统提示:模型预设的角色和任务指令。 处理流程: 音频编码:原始音频信号 x 通过一个音频编码器 E(·)(如Whisper的编码器、BEATs等)提取连续声学特征 e = E(x)。 音频-文本对齐:这是架构异构的关键。根据论文分类,有三种主要方案: 离散标记方案:声学特征 e 通过向量量化(VQ)层映射为离散音频标记序列 z,然后通过嵌入矩阵 Φ 查表得到嵌入向量 ẽ = Φ(z),与文本标记嵌入拼接。 连续特征方案:声学特征 e 通过一个模态适配器(如MLP、交叉注意力层)直接投影到文本嵌入空间,得到与文本嵌入维度一致的向量,再与文本嵌入拼接。 混合方案:同时使用离散标记和连续特征,将两者与文本嵌入融合。 大语言模型处理:拼接后的嵌入序列被送入LLM主干(如LLaMA、Qwen等)。LLM以自回归方式生成响应。 输出:生成文本响应,部分全双工模型还会并行生成语音。 2. AudioHijack攻击框架的介入点: AudioHijack的目标是生成对抗音频 x̂,使得当 x̂ 作为“音频数据”输入时,模型的输出行为被劫持。 ...

2026-04-19

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding

📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jieyi Wang (上海AI实验室,北京大学) 通讯作者:Yazhe Niu (CUHK MMLab) 其他作者:Dexuan Xu (北京大学),Zhongyu Wei (复旦大学) 💡 毒舌点评 亮点:论文的“PAUSE” token设计很巧妙,它让模型在遇到听不清、分不清的“声音玄学”时,能先“闭嘴琢磨一下”再回答,模仿了人类“想一想再说”的认知过程,这是对现有音频大模型推理机制的一个有趣补充。槽点:整个框架的“仪式感”太强,从数据构建到两阶段训练再到复杂的奖励函数,工程复杂度拉满,但最终在部分指标上的提升幅度,相对于其付出的计算和开发成本,性价比有待商榷,且PAUSE机制带来的推理延迟是实打实的。 📌 核心摘要 本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发,作者提出了一个感知接地的混合推理框架。首先,他们构建了一个名为PAQA的新数据集,通过层次化解耦策略(区分语音与环境音、分离不同说话人)为模型提供显式的感知推理训练。在此基础上,提出了HyPeR框架,它包含两个阶段:第一阶段通过监督微调让模型学习结构化的显式感知与反思;第二阶段利用基于GRPO的强化学习,并引入特殊的<PAUSE> token来触发隐式潜在推理,以处理难以用语言描述的声学线索。实验表明,HyPeR在多个音频理解基准测试上显著降低了感知错误,性能可与更大规模的模型相媲美,验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟,且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架,整体架构如图1所示。 完整输入输出流程: 输入:原始音频信号 X_a 和文本问题 Q。 第一阶段(显式感知 - SFT):模型(基于Qwen2-Audio-7B-Instruct)被微调以生成结构化的推理链 T。这个过程是自回归的,每一步都依赖于前一步的输出: 规划 (P):基于音频和问题,规划解题逻辑。 描述 (C):提取多层声学特征,包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。 推理 (R):基于P和C进行逐步分析推理。 总结 (S):将推理合成为内部结论。 反思 (R‘):对背景音和说话人进行透明分析,并反思以改进答案。 这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。 过渡门控:在生成显式链后,模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE],则触发“思考-再说话”步骤;若低于 τ_abort,则直接中止轨迹。 第二阶段(隐式推理 - RL): 若触发<PAUSE>,模型生成一个<PAUSE>特殊标记,并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”,它们不输出到最终可见文本,也不参与后续自回归生成的梯度计算,仅用于迭代更新模型的内部隐藏状态 H_t,以进行更深入的音频特征处理。之后,模型恢复生成可见的最终答案。 整个过程由GRPO强化学习优化,奖励函数综合考虑答案准确性、格式合规性、感知一致性(如背景音鲁棒性、说话人-ASR保真度)和长度控制。 关键设计选择理由: ...

2026-04-19

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #音频大模型 #大语言模型 #流式处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Chung-Ming Chien (Kyutai, 推断) 通讯作者:论文未明确标注,根据机构和工作内容推断为 Alexandre Défossez 或 Chung-Ming Chien (Kyutai) 其他作者: Manu Orsini (Kyutai, 推断) Eugene Kharitonov (Meta FAIR, 推断) Neil Zeghidour (Google DeepMind, 推断) Karen Livescu (纽约大学, 推断) Alexandre Défossez (Kyutai, 推断) 注:论文正文未直接列出作者机构,但根据作者邮箱后缀(@kyutai.org, @meta.com, @google.com, @nyu.edu)及致谢内容推断。 💡 毒舌点评 亮点:巧妙地将RAG“塞进”了全双工语音对话的严格时间缝隙里,实现了“边说边查”的真人感,技术路线设计得很优雅。槽点:整个系统依赖大量合成数据训练和复杂的多模块协作(ASR+LLM检索+语音模型),像一台精密但脆弱的瑞士钟表,实际部署和维护成本恐怕不低。 📌 核心摘要 本文提出了MoshiRAG,这是首个集成检索增强生成功能的全双工语音语言模型。要解决的问题是全双工语音模型在保持实时交互性的同时,事实准确性不足的挑战。核心方法是基于Moshi模型,设计了一个异步检索框架:前端全双工模型在遇到知识密集型查询时预测一个特殊的检索触发词<ret>,随后在继续与用户对话的同时,后台异步调用基于文本的检索系统(如LLM或搜索引擎)获取参考资料;利用语音响应中“关键词延迟”的自然时间差(即从开始说话到说出关键信息的时间),在关键内容生成前将检索到的信息注入模型。主要发现显示,MoshiRAG在多项问答基准测试上显著提升了事实准确性(如在TriviaQA上从22.8%提升至73.7%),性能可媲美甚至超越多数非全双工语音模型,同时保持了全双工系统低延迟、高交互性的优势。此外,系统展现出良好的泛化能力,在未见过的数学推理任务上也取得不错效果。实际意义在于为构建更可靠、知识更丰富的实时语音AI助手提供了一条可行路径。局限性在于目前依赖合成数据进行训练,且系统复杂度较高。 🏗️ 模型架构 MoshiRAG是一个模块化系统,由三个核心组件构成,整体流程如图3所示。 前端:RAG增强的Moshi模型(7B参数) * 输入:用户的语音流,经Mimi编解码器编码为音频令牌(12.5 Hz帧率)。 * 核心处理:基于原始Moshi的RQ-Transformer架构,包含一个处理时间序列的“时间Transformer”(12.5 Hz)和一个预测深度音频令牌的“深度Transformer”。模型同时自回归生成两个通道:文本转录通道(包含填充令牌)和语音响应通道的音频令牌。 * 关键修改: * 引入检索触发词<ret>:在特定时间步预测此令牌,触发后台检索。 * 引入参考文本编码器:使用预训练的ARC-Encoder(压缩比4)将检索到的文本参考编码为嵌入序列emb^{ref}。 * 信息注入(公式2):当检索完成(延迟d秒后),参考嵌入通过一个可训练的线性层投影,并以流式相加的方式注入到时间Transformer的输入中。即,在检索完成后开始的连续l个时间步内,模型输入h_i被修改为h_i + h_i^{ref}。这使得模型能在生成响应的“主体”部分前接收到外部知识。 * 输出:自回归生成的语音令牌流,最终转换为波形。 ...

2026-04-19

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Luoyi Sun(浙江大学,上海人工智能实验室) 通讯作者:Weidi Xie(上海交通大学,上海人工智能实验室) 其他作者: Xiao Zhou(上海人工智能实验室,上海交通大学) Zeqian Li(上海人工智能实验室,上海交通大学) Ya Zhang(上海人工智能实验室,上海交通大学) Yanfeng Wang(上海人工智能实验室,上海交通大学) 💡 毒舌点评 亮点:这篇论文的“时间戳交错序列”设计堪称“暴力美学”,直接把时间戳文本硬塞进音频Token序列里,让大语言模型像读句子一样“读”出时间,思路简单粗暴但异常有效。槽点:合成数据管道虽然巧妙,但用VGGSound配“Walking Tours”背景音,总感觉像是在录音棚里模拟“菜市场”,离真正的复杂声学场景还有点距离;另外,模型对“狗叫”这种瞬态声音的定位精度(见失败案例),似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 📌 核心摘要 本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单,导致在长音频中定位短暂事件(“大海捞针”)时表现不可靠。为此,作者提出了SpotSound框架,其核心创新在于:1)设计了时间戳交错序列,将绝对时间戳文本与音频特征交错输入LLM,提供显式的时间对齐信号;2)引入了抗幻觉训练目标,通过构建包含正负样本的判别式四元组,强制模型先判断事件是否存在,再进行定位,有效抑制了对不存在事件的幻觉定位。同时,论文构建了SpotSound-Bench基准,其中目标事件仅占音频总长的8.4%,模拟了真实的“稀疏事件定位”挑战。实验表明,SpotSound在多个时间定位基准上达到了最先进水平,并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型,其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取: 原始输入:一段音频 𝒜 和一个自然语言查询 ℚ。 音频编码:音频被重采样至16kHz,转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器(如Whisper-large-v3),该编码器包含一个步长为2的池化层,将时间分辨率压缩,每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新:时间戳交错序列构建 (Timestamp-Interleaved Sequence) 目的:为音频Token提供显式的、绝对的时间位置信息。 方法:对于每个时间索引 𝑡𝑖 (以1秒为粒度),创建一个文本Token “timestamp: 𝑡𝑖 seconds” (记为 𝐓𝑖),并将其直接放置在对应的音频Token 𝐀𝑖 之前。 序列格式:最终送入大语言模型的序列为:S = [𝐓₁; 𝐀₁; 𝐓₂; 𝐀₂; …; 𝐓ₙ; 𝐀ₙ; 𝐈; ℚ]。其中 𝐈 是任务指令(如“判断是否存在”或“定位时间”),ℚ 是查询文本。这相当于给LLM提供了一个带精确时间刻度的“音频文本混合文档”。 3. 两阶段推理流程: ...

2026-04-19

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

📄 Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt #音频理解 #音频事件检测 #音频大模型 #强化学习 #自回归模型 🔥 评分:8.3/10 | arxiv 👥 作者与机构 第一作者:Yanfeng Shi(中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Lirong Dai(中国科学技术大学,语音及语言信息处理国家工程研究中心),Yan Song(中国科学技术大学,语音及语言信息处理国家工程研究中心) 其他作者: Pengfei Cai(中国科学技术大学,语音及语言信息处理国家工程研究中心) Jun Liu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Qing Gu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Nan Jiang(中国科学技术大学,语音及语言信息处理国家工程研究中心) Ian McLoughlin(新加坡科技学院,ICT Cluster) 💡 毒舌点评 亮点在于巧妙地将“时间戳”伪装成一种特殊的“语言令牌”塞进音频特征序列里,让模型像读句子一样“读”出时间坐标,再用强化学习直接对齐音频事件检测的黄金指标,思路清晰且有效。槽点是这方法有点“取巧”,时间提示的窗口(0-30秒)和分辨率(0.04秒)是硬编码的,遇到更长或需要更高精度的音频就抓瞎,而且强化学习那套调参和训练效率的“玄学”问题,论文里轻描淡写了。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)在细粒度时间感知(如精确定位声音事件的起止时间)上的不足。作者提出了TimePro-RL框架,其核心是两步走策略:首先,提出音频侧时间提示(ASTP),将时间戳编码为特殊令牌并交织插入音频特征序列中,为模型提供明确的物理时间坐标;其次,在监督微调(SFT)后,引入基于强化学习(RL) 的后训练阶段,并设计了一种自适应时间奖励机制(结合事件F1分数和连续辅助奖励如mIoU),直接优化模型的时间对齐性能。实验表明,该方法在音频定位、声音事件检测和密集音频描述三个任务上,相比多种基线模型取得了显著提升,尤其在高精度时间定位指标上优势明显。局限性在于时间提示的范围和分辨率固定,且RL训练增加了复杂度。 🏗️ 模型架构 整体流程:模型基于现有的LALM(如Qwen2-Audio, Qwen2.5-Omni),其核心架构为音频编码器 + 大语言模型(LLM)。TimePro-RL通过修改输入模态和训练目标来增强其时序能力。 输入输出流程: 输入:一段原始音频波形 + 一个自然语言查询(例如:“火车道口铃声何时响起?”)。 音频编码:音频通过预训练的音频编码器(如Whisper)处理,输出一个音频特征序列(<AUDIO> tokens)。假设编码器帧率为25Hz,即每0.04秒输出一个特征向量。 时间提示注入:这是核心修改。在预处理阶段,根据音频时长和帧率,生成一系列时间戳令牌(Timestamp Tokens),如<0.04>, <0.08>等。这些令牌被交织插入到音频特征序列的对应时间位置上,形成新的输入序列:<s> <audio> <AUDIO> <0.04> <AUDIO> <0.08> <AUDIO> ... </audio> 当何时发生? </s>。 嵌入层处理: 音频特征:通过音频编码器映射为音频嵌入。 时间戳令牌:通过一个时间戳嵌入层映射为向量。该嵌入层采用语义初始化:每个时间戳嵌入向量初始化为其数字字符串(如“0.04”)经LLM原始分词器分词后,对应子词嵌入的均值。训练时,此嵌入层参数被冻结。 文本令牌:通过文本嵌入层映射为文本嵌入。 LLM处理:上述混合嵌入序列(音频+时间戳+文本)被送入大语言模型(自回归Transformer)。 输出:模型自回归地生成文本响应,格式根据任务而定(如{"query": [5.0, 6.0]})。 关键设计理由: ...

2026-04-19

Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization

📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Xiangyu Zhang(新南威尔士大学电气工程与电信学院;杜比实验室,悉尼) 通讯作者:Julien Epps(新南威尔士大学电气工程与电信学院)(推断,作为最后作者及机构负责人) 其他作者: Benjamin John Southwell(杜比实验室,悉尼) Siqi Pan(杜比实验室,悉尼) Xinlei Niu(杜比实验室,悉尼) Beena Ahmed(新南威尔士大学电气工程与电信学院) 💡 毒舌点评 亮点:论文像一位严谨的侦探,系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突,并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点:实验部分虽然扎实,但读起来像在啃一本厚重的实验手册,部分描述(如梯度分析)略显冗长,且主要聚焦于视频-音频融合,对其他模态组合的泛化性探讨不足,有点“偏科”。 📌 核心摘要 这篇论文深入探讨了在端到端音频语言模型中,将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验,揭示了三个关键发现:融合位置(在量化前还是量化后)至关重要;在离散分词器中,知识蒸馏比对比学习更有效;基于时间轴的动态融合优于静态特征融合。基于此,论文提出了时间感知预量化融合(TAPF) 方法,这是首个能在集成视觉信息的同时,保持高保真音频重建质量的方案。实验表明,TAPF不仅维持了重建保真度,还在下游音频理解任务(如AVQA)上显著优于单模态音频分词器和现有多种多模态融合基线,特别是在低比特率(高压缩)场景下,展现了8倍的token效率提升。 🏗️ 模型架构 论文提出了一个用于视频增强音频分词的统一框架,其核心是预量化融合策略。整体流程如下: 输入:原始音频波形 x ∈ ℝ^T 和对应的视频帧序列。 音频编码:音频通过 SEANet编码器 (E_audio) 映射为连续表示 z_e ∈ ℝ^(d×T')。 视觉编码:视频帧通过预训练的 Perception Encoder 提取视觉特征 f_vision ∈ ℝ^(d_v×T_v)。 关键融合阶段(预量化):在量化之前,将视觉信息融合到音频的连续表示 z_e 中。论文比较了两种融合方法: 知识蒸馏融合:通过一个变换器将 z_e 投影到语义空间得到 f_audio,然后使用蒸馏损失 L_distill(基于余弦相似度)拉近 f_audio 与 f_vision 的距离。 对比学习融合:对 f_audio 和 f_vision 进行时序平均池化后,使用CLIP风格的对比损失 L_contrastive 进行对齐。 量化:融合后的连续特征送入 残差矢量量化器 (RVQ) 或 有限标量量化器 (FSQ),生成离散token序列 ẑ。RVQ包含8层,每层1024个码本。 音频解码:离散token ẑ 通过 SEANet解码器 (D_audio) 重构为音频波形。 训练目标:总损失 L_total 是重建损失(L1 + 多尺度梅尔频谱损失)、承诺损失和融合损失(蒸馏或对比损失)的加权和。 下游评估:为了评估分词器的理解能力,论文设计了一个音频token投影框架。离散token通过一个可训练的 AudioProjector(为每个量化层设置独立的嵌入层,拼接后通过多层Transformer映射网络)转换为语言模型兼容的表示,然后与文本问题一起输入冻结的 Llama 3.1 8B 模型,通过一个可训练的分类头完成音频视觉问答(AVQA) 任务。 关键设计选择理由: ...

2026-04-19