AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Zixuan Chen(上海交通大学) 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断) 其他作者: Depeng Wang(蚂蚁集团) Hao Lin(香港中文大学) Li Luo(上海交通大学) Ke Xu(上海交通大学) Ya Guo(蚂蚁集团) Huijia Zhu(蚂蚁集团) 💡 毒舌点评 这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。 🔗 开源详情 代码:论文中提到GitHub仓库(https://github.com/),但未给出完整链接。计划开源。 模型权重:AVID-Qwen基于Qwen3-Omni-30B-A3B-Instruct微调。论文提到将在HuggingFace上发布模型权重。 数据集:AVID基准计划公开,包含全视频和片段级子集。 预训练权重:使用公开的Qwen3-Omni-30B-A3B-Instruct作为骨干。 在线Demo:论文中未提及。 引用的开源项目: 策略智能体:Gemini 3.1 Pro (Google)。 注入器工具:FFmpeg, Demucs (音频分离), Silero VAD, MediaPipe。 基座模型:Qwen3-Omni。 微调框架:SWIFT。 数据来源:LongVALE数据集。 📌 核心摘要 这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。 ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 300 words

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

📄 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs #音频理解 #统一音频模型 #强化学习 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Linhao Zhang(腾讯微信AI,基础模型技术中心) 通讯作者:推断为 Houfeng Wang(北京大学计算机科学学院,多媒体信息处理国家重点实验室)和 Xiao Zhou(腾讯微信AI,基础模型技术中心),基于资深作者位置及实验室负责人身份。 其他作者: Yuhan Song(北京大学计算机科学学院,多媒体信息处理国家重点实验室) Aiwei Liu(腾讯微信AI,基础模型技术中心) Chuhan Wu(腾讯微信AI,基础模型技术中心) Sijun Zhang(腾讯微信AI,基础模型技术中心) Wei Jia(腾讯微信AI,基础模型技术中心) Yuan Liu(腾讯微信AI,基础模型技术中心) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点,并一针见血地指出病根在于ASR(语音识别)的“填鸭式”教学——只教认字,不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”,强制它去听语气、听环境,效果立竿见影。 槽点:方法虽好,但“药方”(训练数据)全靠其他模型“合成”,虽然做了人工验证,但终究是“二手信息”,长期来看可能限制模型感知能力的上限。另外,论文主要在高资源语言(中英文)上验证,对于方言或低资源语言的效果还是个问号。 🔗 开源详情 代码与模型:论文明确声明代码和模型已公开,地址为:https://github.com/Tencent/Unified_Audio_Schema。但截至分析时,该链接的有效性及具体内容(如star数、框架)需进一步核实。 数据集:UAS训练数据是通过自动化流水线从现有数据集合成的,论文未提及是否单独公开该合成后的UAS格式数据集。 预训练权重:基于Qwen2.5-7B构建,但未提及是否单独提供预训练权重。 在线Demo:论文中未提及。 依赖的开源项目:论文中明确引用了多个开源模型和数据集,如Qwen系列模型、StableToken、HiFi-GAN、LibriSpeech、GigaSpeech等。 📌 核心摘要 这篇论文旨在解决当前音频大语言模型(AudioLLMs)在细粒度声学感知任务上表现不佳的核心问题。作者指出,主流的以自动语音识别(ASR)为中心的训练范式,通过将音频映射到纯文本转录,系统性地丢弃了副语言学(如情感、语调)和非语言声学事件信息,导致模型成为“语言巨人,听觉矮子”。为此,他们提出了一种统一音频模式(UAS),这是一种结构化的JSON表示,将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分,从而在训练中保留完整的声学线索。基于UAS,作者构建了可扩展的自动数据生成流水线,并训练了UAS-Audio模型。实验表明,UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升,同时保持了强大的推理能力,并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号,是提升AudioLLMs综合能力的有效途径。 🏗️ 模型架构 UAS-Audio的整体架构遵循当前主流的连续表示AudioLLM范式,包含四个核心组件,其输入输出流程如下: 输入:原始音频波形。 输出:文本(如转录、问答、结构化UAS)或生成的语音波形。 核心组件与数据流: 音频编码器:使用AuT (Audio Transformer) 作为连续音频编码器。它将原始波形转换为连续的音频表示向量序列。 投影层:一个简单的线性投影层。它将音频编码器输出的向量映射到与大语言模型(LLM)词嵌入空间对齐的维度。这是连接音频与文本模态的关键桥梁。 大语言模型骨干:采用Qwen2.5-7B作为核心推理引擎。它接收来自投影层的音频特征和文本提示的嵌入,进行自回归解码,生成文本响应。在训练的某些阶段,LLM也被扩展以处理离散音频令牌。 语音解码器:基于流匹配(Flow Matching)架构,并配备HiFi-GAN声码器。当需要语音生成时,LLM输出的离散音频令牌(来自StableToken)被送入此解码器,先转换为梅尔频谱图,再合成最终波形。 训练阶段与模块状态: 阶段1:离散令牌对齐:仅训练LLM的嵌入层和输出头,通过ASR和TTS任务,让LLM学会处理离散音频代码,为语音生成做准备。 阶段2:音频LLM适应:冻结LLM和音频编码器,仅训练投影层。使用UAS标注数据进行训练,使模型从一开始就建立对结构化声学信息的理解。 阶段3:全指令调优:解冻除音频编码器外的所有参数。在混合数据(基础音频数据、UAS标注、UAS-QA)上进行多任务训练,综合提升感知、推理和生成能力。 阶段4:GRPO:使用群体相对策略优化(GRPO) 进行强化学习,进一步提升模型性能。 架构选择理由:该设计复用了经过验证的成熟组件(如Qwen2.5、流匹配解码器),创新点不在于模块本身,而在于如何使用UAS数据来训练这些模块,特别是通过阶段2的针对性适应,避免了模型陷入传统的ASR中心表征。 ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 237 words

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分:8.8/10 | arxiv 👥 作者与机构 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB) 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing) 其他作者: Kun Wang(浙江大学,ZJU-MUSLAB) Li Lu(浙江大学,ZJU-MUSLAB) Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering) Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云) 💡 毒舌点评 亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。 🔗 开源详情 代码:论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建,但截至论文发布时可能尚未完全公开。 模型权重:未提及发布攻击模型权重。攻击针对的是现有的开源LALM。 数据集:论文中使用的音频数据来自公开基准(AirBench, VoiceBench)。用于训练攻击的辅助用户指令数据集可能随代码一起发布。 音频样本:提供在线试听链接:https://audiohijack.github.io。 在线Demo:未提及。 依赖的开源项目:攻击实现依赖于PyTorch等框架,以及被攻击的各个开源LALM的官方代码库(如Qwen2-Audio, GLM-4-Voice等)。 📌 核心摘要 这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。 🏗️ 模型架构 论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。 ...

2026-04-19 · 更新于 2026-05-20 · 3 min · 430 words

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding

📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jieyi Wang (上海AI实验室,北京大学) 通讯作者:Yazhe Niu (CUHK MMLab) 其他作者:Dexuan Xu (北京大学),Zhongyu Wei (复旦大学) 💡 毒舌点评 亮点:论文的“PAUSE” token设计很巧妙,它让模型在遇到听不清、分不清的“声音玄学”时,能先“闭嘴琢磨一下”再回答,模仿了人类“想一想再说”的认知过程,这是对现有音频大模型推理机制的一个有趣补充。槽点:整个框架的“仪式感”太强,从数据构建到两阶段训练再到复杂的奖励函数,工程复杂度拉满,但最终在部分指标上的提升幅度,相对于其付出的计算和开发成本,性价比有待商榷,且PAUSE机制带来的推理延迟是实打实的。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/JOY-SWang/HyPeR。 模型权重:论文中未明确提及是否公开模型权重。 数据集:PAQA数据集已开源,可通过上述GitHub地址获取。 预训练权重:基于Qwen2-Audio-7B-Instruct进行微调。 在线Demo:论文中未提及。 引用的开源项目:依赖Qwen2-Audio、MUSAN数据集、FSD50K数据集、CLAP模型等。 📌 核心摘要 本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发,作者提出了一个感知接地的混合推理框架。首先,他们构建了一个名为PAQA的新数据集,通过层次化解耦策略(区分语音与环境音、分离不同说话人)为模型提供显式的感知推理训练。在此基础上,提出了HyPeR框架,它包含两个阶段:第一阶段通过监督微调让模型学习结构化的显式感知与反思;第二阶段利用基于GRPO的强化学习,并引入特殊的<PAUSE> token来触发隐式潜在推理,以处理难以用语言描述的声学线索。实验表明,HyPeR在多个音频理解基准测试上显著降低了感知错误,性能可与更大规模的模型相媲美,验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟,且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架,整体架构如图1所示。 完整输入输出流程: 输入:原始音频信号 X_a 和文本问题 Q。 第一阶段(显式感知 - SFT):模型(基于Qwen2-Audio-7B-Instruct)被微调以生成结构化的推理链 T。这个过程是自回归的,每一步都依赖于前一步的输出: 规划 (P):基于音频和问题,规划解题逻辑。 描述 (C):提取多层声学特征,包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。 推理 (R):基于P和C进行逐步分析推理。 总结 (S):将推理合成为内部结论。 反思 (R‘):对背景音和说话人进行透明分析,并反思以改进答案。 这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。 过渡门控:在生成显式链后,模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE],则触发“思考-再说话”步骤;若低于 τ_abort,则直接中止轨迹。 第二阶段(隐式推理 - RL): 若触发<PAUSE>,模型生成一个<PAUSE>特殊标记,并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”,它们不输出到最终可见文本,也不参与后续自回归生成的梯度计算,仅用于迭代更新模型的内部隐藏状态 H_t,以进行更深入的音频特征处理。之后,模型恢复生成可见的最终答案。 整个过程由GRPO强化学习优化,奖励函数综合考虑答案准确性、格式合规性、感知一致性(如背景音鲁棒性、说话人-ASR保真度)和长度控制。 关键设计选择理由: ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 388 words

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #音频大模型 #大语言模型 #流式处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Chung-Ming Chien (Kyutai, 推断) 通讯作者:论文未明确标注,根据机构和工作内容推断为 Alexandre Défossez 或 Chung-Ming Chien (Kyutai) 其他作者: Manu Orsini (Kyutai, 推断) Eugene Kharitonov (Meta FAIR, 推断) Neil Zeghidour (Google DeepMind, 推断) Karen Livescu (纽约大学, 推断) Alexandre Défossez (Kyutai, 推断) 注:论文正文未直接列出作者机构,但根据作者邮箱后缀(@kyutai.org, @meta.com, @google.com, @nyu.edu)及致谢内容推断。 💡 毒舌点评 亮点:巧妙地将RAG“塞进”了全双工语音对话的严格时间缝隙里,实现了“边说边查”的真人感,技术路线设计得很优雅。槽点:整个系统依赖大量合成数据训练和复杂的多模块协作(ASR+LLM检索+语音模型),像一台精密但脆弱的瑞士钟表,实际部署和维护成本恐怕不低。 🔗 开源详情 代码:论文提到推理代码已在GitHub开源:https://github.com/kyutai-labs/moshi-rag。 模型权重:论文未明确说明MoshiRAG的模型权重是否公开。原始Moshi模型权重是公开的。 数据集:论文中描述的合成训练数据集未提及是否公开发布。 在线Demo:论文提供了在线演示地址:https://moshi-rag.kyutai.org。 依赖的开源项目:论文中明确引用的开源项目包括:Moshi(基础模型)、Gemma 3(用于数据生成和检索)、ARC-Encoder(参考编码)、Tavily(搜索API)、HaluEval、Natural Questions等数据集。 📌 核心摘要 本文提出了MoshiRAG,这是首个集成检索增强生成功能的全双工语音语言模型。要解决的问题是全双工语音模型在保持实时交互性的同时,事实准确性不足的挑战。核心方法是基于Moshi模型,设计了一个异步检索框架:前端全双工模型在遇到知识密集型查询时预测一个特殊的检索触发词<ret>,随后在继续与用户对话的同时,后台异步调用基于文本的检索系统(如LLM或搜索引擎)获取参考资料;利用语音响应中“关键词延迟”的自然时间差(即从开始说话到说出关键信息的时间),在关键内容生成前将检索到的信息注入模型。主要发现显示,MoshiRAG在多项问答基准测试上显著提升了事实准确性(如在TriviaQA上从22.8%提升至73.7%),性能可媲美甚至超越多数非全双工语音模型,同时保持了全双工系统低延迟、高交互性的优势。此外,系统展现出良好的泛化能力,在未见过的数学推理任务上也取得不错效果。实际意义在于为构建更可靠、知识更丰富的实时语音AI助手提供了一条可行路径。局限性在于目前依赖合成数据进行训练,且系统复杂度较高。 ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 339 words

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Luoyi Sun(浙江大学,上海人工智能实验室) 通讯作者:Weidi Xie(上海交通大学,上海人工智能实验室) 其他作者: Xiao Zhou(上海人工智能实验室,上海交通大学) Zeqian Li(上海人工智能实验室,上海交通大学) Ya Zhang(上海人工智能实验室,上海交通大学) Yanfeng Wang(上海人工智能实验室,上海交通大学) 💡 毒舌点评 亮点:这篇论文的“时间戳交错序列”设计堪称“暴力美学”,直接把时间戳文本硬塞进音频Token序列里,让大语言模型像读句子一样“读”出时间,思路简单粗暴但异常有效。槽点:合成数据管道虽然巧妙,但用VGGSound配“Walking Tours”背景音,总感觉像是在录音棚里模拟“菜市场”,离真正的复杂声学场景还有点距离;另外,模型对“狗叫”这种瞬态声音的定位精度(见失败案例),似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 🔗 开源详情 代码:已开源。GitHub地址:https://loiesun.github.io/spotsound/ (指向项目主页,代码应托管于此)。 模型权重:已公开。在HuggingFace上发布,包括基于Qwen2-Audio和Audio Flamingo 3的两个变体(SpotSound-Q和SpotSound-A)。 数据集: SpotSound-Bench:已公开,包含300个音频-query-timestamp三元组,可通过项目主页获取。 训练数据:论文中提到的合成数据管道和混合数据集的具体发布情况未明确说明,但强调“Code, models and benchmark are released”。 在线Demo:论文中未提及在线Demo地址。 引用的开源项目:依赖于Qwen2-Audio、Audio Flamingo 3、Whisper、DeepSeek-v3、Qwen2等开源模型。 📌 核心摘要 本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单,导致在长音频中定位短暂事件(“大海捞针”)时表现不可靠。为此,作者提出了SpotSound框架,其核心创新在于:1)设计了时间戳交错序列,将绝对时间戳文本与音频特征交错输入LLM,提供显式的时间对齐信号;2)引入了抗幻觉训练目标,通过构建包含正负样本的判别式四元组,强制模型先判断事件是否存在,再进行定位,有效抑制了对不存在事件的幻觉定位。同时,论文构建了SpotSound-Bench基准,其中目标事件仅占音频总长的8.4%,模拟了真实的“稀疏事件定位”挑战。实验表明,SpotSound在多个时间定位基准上达到了最先进水平,并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型,其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取: 原始输入:一段音频 𝒜 和一个自然语言查询 ℚ。 音频编码:音频被重采样至16kHz,转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器(如Whisper-large-v3),该编码器包含一个步长为2的池化层,将时间分辨率压缩,每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新:时间戳交错序列构建 (Timestamp-Interleaved Sequence) ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 341 words

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

📄 Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt #音频理解 #音频事件检测 #音频大模型 #强化学习 #自回归模型 🔥 评分:8.3/10 | arxiv 👥 作者与机构 第一作者:Yanfeng Shi(中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Lirong Dai(中国科学技术大学,语音及语言信息处理国家工程研究中心),Yan Song(中国科学技术大学,语音及语言信息处理国家工程研究中心) 其他作者: Pengfei Cai(中国科学技术大学,语音及语言信息处理国家工程研究中心) Jun Liu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Qing Gu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Nan Jiang(中国科学技术大学,语音及语言信息处理国家工程研究中心) Ian McLoughlin(新加坡科技学院,ICT Cluster) 💡 毒舌点评 亮点在于巧妙地将“时间戳”伪装成一种特殊的“语言令牌”塞进音频特征序列里,让模型像读句子一样“读”出时间坐标,再用强化学习直接对齐音频事件检测的黄金指标,思路清晰且有效。槽点是这方法有点“取巧”,时间提示的窗口(0-30秒)和分辨率(0.04秒)是硬编码的,遇到更长或需要更高精度的音频就抓瞎,而且强化学习那套调参和训练效率的“玄学”问题,论文里轻描淡写了。 🔗 开源详情 代码:论文标题下方提到了“GitHub Issue”链接,但正文中未明确给出代码仓库地址。推测代码可能已开源或计划开源,但当前信息不明确。 模型权重:论文中未提及是否公开发布训练后的模型权重。 数据集:实验使用了公开数据集FTAR和DESED,论文中提供了训练集和测试集规模。 预训练权重:基于开源的LALM(Qwen2-Audio, Qwen2.5-Omni)进行后训练。 在线Demo:论文中未提及。 依赖的开源项目:论文中明确提到的开源模型/工具有:Qwen2-Audio, Qwen2.5-Omni, Whisper(作为音频编码器), LoRA(用于高效微调), GRPO(强化学习算法)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)在细粒度时间感知(如精确定位声音事件的起止时间)上的不足。作者提出了TimePro-RL框架,其核心是两步走策略:首先,提出音频侧时间提示(ASTP),将时间戳编码为特殊令牌并交织插入音频特征序列中,为模型提供明确的物理时间坐标;其次,在监督微调(SFT)后,引入基于强化学习(RL) 的后训练阶段,并设计了一种自适应时间奖励机制(结合事件F1分数和连续辅助奖励如mIoU),直接优化模型的时间对齐性能。实验表明,该方法在音频定位、声音事件检测和密集音频描述三个任务上,相比多种基线模型取得了显著提升,尤其在高精度时间定位指标上优势明显。局限性在于时间提示的范围和分辨率固定,且RL训练增加了复杂度。 🏗️ 模型架构 整体流程:模型基于现有的LALM(如Qwen2-Audio, Qwen2.5-Omni),其核心架构为音频编码器 + 大语言模型(LLM)。TimePro-RL通过修改输入模态和训练目标来增强其时序能力。 输入输出流程: 输入:一段原始音频波形 + 一个自然语言查询(例如:“火车道口铃声何时响起?”)。 音频编码:音频通过预训练的音频编码器(如Whisper)处理,输出一个音频特征序列(<AUDIO> tokens)。假设编码器帧率为25Hz,即每0.04秒输出一个特征向量。 时间提示注入:这是核心修改。在预处理阶段,根据音频时长和帧率,生成一系列时间戳令牌(Timestamp Tokens),如<0.04>, <0.08>等。这些令牌被交织插入到音频特征序列的对应时间位置上,形成新的输入序列:<s> <audio> <AUDIO> <0.04> <AUDIO> <0.08> <AUDIO> ... </audio> 当何时发生? </s>。 嵌入层处理: 音频特征:通过音频编码器映射为音频嵌入。 时间戳令牌:通过一个时间戳嵌入层映射为向量。该嵌入层采用语义初始化:每个时间戳嵌入向量初始化为其数字字符串(如“0.04”)经LLM原始分词器分词后,对应子词嵌入的均值。训练时,此嵌入层参数被冻结。 文本令牌:通过文本嵌入层映射为文本嵌入。 LLM处理:上述混合嵌入序列(音频+时间戳+文本)被送入大语言模型(自回归Transformer)。 输出:模型自回归地生成文本响应,格式根据任务而定(如{"query": [5.0, 6.0]})。 关键设计理由: ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 387 words

Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization

📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Xiangyu Zhang(新南威尔士大学电气工程与电信学院;杜比实验室,悉尼) 通讯作者:Julien Epps(新南威尔士大学电气工程与电信学院)(推断,作为最后作者及机构负责人) 其他作者: Benjamin John Southwell(杜比实验室,悉尼) Siqi Pan(杜比实验室,悉尼) Xinlei Niu(杜比实验室,悉尼) Beena Ahmed(新南威尔士大学电气工程与电信学院) 💡 毒舌点评 亮点:论文像一位严谨的侦探,系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突,并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点:实验部分虽然扎实,但读起来像在啃一本厚重的实验手册,部分描述(如梯度分析)略显冗长,且主要聚焦于视频-音频融合,对其他模态组合的泛化性探讨不足,有点“偏科”。 🔗 开源详情 代码:论文在标题下方提供了 GitHub Issue 链接(https://github.com/...,具体地址需从原PDF获取),并声明了 CC BY 4.0 许可。这强烈暗示代码将开源或部分开源,但论文中未提供完整的仓库地址或stars数量。 模型权重:论文中未提及是否公开预训练的模型权重。 数据集:实验主要使用公开的 AudioSet 和 AVQA 数据集。 预训练权重:视觉编码器使用了预训练的 Perception Encoder。下游评估使用了 Llama 3.1 8B 的预训练权重。 在线 Demo:论文中未提及。 引用的开源项目:论文依赖或提及了多个开源项目/模型,包括 SEANet(音频编码器-解码器)、Perception Encoder(视觉特征提取)、Llama 3.1(语言模型评估基线)、CLIP(对比学习方法参考)等。 📌 核心摘要 这篇论文深入探讨了在端到端音频语言模型中,将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验,揭示了三个关键发现:融合位置(在量化前还是量化后)至关重要;在离散分词器中,知识蒸馏比对比学习更有效;基于时间轴的动态融合优于静态特征融合。基于此,论文提出了时间感知预量化融合(TAPF) 方法,这是首个能在集成视觉信息的同时,保持高保真音频重建质量的方案。实验表明,TAPF不仅维持了重建保真度,还在下游音频理解任务(如AVQA)上显著优于单模态音频分词器和现有多种多模态融合基线,特别是在低比特率(高压缩)场景下,展现了8倍的token效率提升。 ...

2026-04-19 · 更新于 2026-05-20 · 3 min · 503 words