Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities

📄 Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities #音频问答 #基准测试 #多语言 #鲁棒性 #语音大模型 ✅ 6.5/10 | 前50% | #音频问答 | #基准测试 | #多语言 #鲁棒性 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Heejoon Koo (伊利诺伊大学厄巴纳-香槟分校) 通讯作者:未说明 作者列表:Heejoon Koo (伊利诺伊大学厄巴纳-香槟分校) 💡 毒舌点评 亮点:论文精准地捕捉到了一个被忽视但至关重要的现实问题——大型音频语言模型(LALMs)在类似鸡尾酒会的环境中面对多语言语义干扰时的选择性注意力缺失。其核心贡献在于设计并应用了一个巧妙的、诊断性强的评估框架(MUSA),首次系统性地量化了这一能力短板,并揭示了“单一设置下的强理解能力并不等于干扰下的鲁棒性”这一关键现象,为模型评估设立了新的维度。 短板:评估框架虽精妙,但构建在TTS合成数据之上,其生态效度存疑。研究止步于揭示问题(模型在干扰下易犯“干扰项干扰”错误),并未对模型自身信息处理机制进行更深层的剖析或提出缓解方案。此外,评估格式(MCQ)和固定的评估提示(源接地提示)限制了结论的普适性,可能测试的是指令遵循能力而非内在的注意力机制。 📌 核心摘要 要解决什么问题:论文旨在评估大型音频语言模型(LALMs)在类似鸡尾酒会的场景中,面对同时播放的、语义相关的多语言干扰对话时,能否选择性地关注并正确理解目标英语对话,从而完成源接地的推理任务。现有评估基准缺乏对这种受干扰的选择性注意力能力的直接测试。 方法核心是什么:论文提出了MUSA(Multilingual Selective Attention)基准。每个测试项包含一个英语目标对话和一个同时播放的、语义相关但语言不同(英语、西班牙语、韩语、中文)的干扰对话,要求模型基于目标对话回答多项选择题(MCQ)。评估在三种递进式设置下进行:“单一”设置(仅目标流)、“分离”设置(使用分离器分离后分别输入模型)、“鸡尾酒会”设置(直接输入混合信号),并在不同信噪比(SNR)下分析性能。 与已有方法相比新在哪里:MUSA填补了现有评估的空白。它不同于专注于转录或分离质量的多说话人ASR/分离基准(如CHiME-6, WSJ0-2mix),也不同于评估单流音频理解的通用LALM基准(如AIR-Bench, AudioBench)或关注声学扰动的信任基准(如AudioTrust)。MUSA首次系统性地评估了LALMs在面对并发的、语义合理的多语言干扰时,进行源接地推理的能力,并引入了证据源诊断分析来归类错误类型。 主要实验结果如何:对六个LALMs的评估表明,单一设置下的高准确率并不能保证在鸡尾酒会设置下的鲁棒性。例如,Gemini-2.0-Flash在单一设置下准确率为0.955,但在0dB SNR的鸡尾酒会设置下骤降至0.242。误差分析显示,在干扰下,大部分错误是“干扰项干扰”(Distractor Interference),即模型错误地基于干扰流进行推理。分离设置虽然减少了声学重叠,但未能解决源归属问题,模型常常自信地输出基于错误流的答案。 模型 单一准确率 分离设置准确率 鸡尾酒会设置准确率 (0dB SNR) Qwen2-Audio 0.773 0.529 0.466 MERaLiON-2 0.757 0.693 0.601 Audio-Flamingo-3 0.908 0.758 0.580 Qwen2.5-Omni 0.650 0.518 0.351 GPT-4o mini Audio 0.772 0.586 0.636 Gemini-2.0-Flash 0.955 0.952 0.242 实际意义是什么:研究结果强调了选择性听觉注意力对于LALMs在真实世界高风险场景(如航空、医疗)中可靠部署的重要性。它揭示了当前模型的一个关键缺陷:它们可能无法正确处理并发信息流,导致推理基于错误来源。这为未来LALMs的设计和训练提供了明确的改进方向——需要将选择性注意力作为首要目标。 主要局限性是什么:主要局限包括:1) 数据集:规模较小(200项)且全部由TTS合成,缺乏自然语音的韵律、说话人变异和真实信道噪声;2) 评估范围:目标仅限于英语对话、双人单声道混合、使用单一的开源分离器(ClearerVoice-Studio),未测试非英语目标、多说话人或更复杂环境;3) 方法不对称性:开源和闭源模型在分离设置下的处理方式不同(分别输入 vs 串联输入),且ECE分析仅限于开源模型;4) 评估格式:多项选择题格式无法评估自由生成中可能出现的跨流信息混合。 🔗 开源详情 代码:论文中未提及具体代码仓库链接。摘要与结论部分提及“Data and code will be released upon publication”,表明代码将在论文发表后开源,但未提供当前可用链接。 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope)。论文评估了四个开源权重(open-weight)模型(Qwen2-Audio, MERaLiON-2, Audio-Flamingo-3, Qwen2.5-Omni)和两个闭源模型(GPT-4o mini Audio, Gemini-2.0-Flash),但未在论文中提供前者的官方权重链接。 数据集:MUSA数据集。论文中未提及具体的获取链接或开源协议。摘要与结论部分明确表示“Data and code will be released upon publication”。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及独立的复现指南、训练配置或检查点。论文附录(Appendix B)提供了实验设置、解码参数、提示模板和评估指标的详细信息,这些构成了复现所需的关键材料,但并非独立发布的资源包。 论文中引用的开源项目: ClearerVoice-Studio:一个语音分离工具,在实验中用于分离阶段。论文提供了其引用(Zhao et al. 2025),并给出GitHub链接:https://github.com/X-Perseverance/ClearerVoice-Studio。 multilingual-e5-large:一个多语言嵌入模型,用于计算目标-干扰项语义相似度。论文提供了其引用(Wang et al. 2024),但未在文中给出具体链接。 🏗️ 方法概述和架构 整体流程概述:本文的核心方法是设计并应用一个多阶段的评估框架(MUSA)来系统测试LALMs的选择性注意力能力。流程包括:1)构建包含目标与多语言干扰对话的标准化评估数据集;2)设计三种递进式的评估设置(单一、分离、鸡尾酒会)来隔离不同因素(声学重叠 vs. 源归属混淆);3)在控制变量(SNR、干扰语言、领域)下运行评估,并收集性能指标与错误类型数据,进行诊断分析。 ...

2026-05-19 · 更新于 2026-05-19 · 4 min · 645 words

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

📄 Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs #模型评估 #音频问答 #跨模态 #基准测试 #多模态模型 🔥 8.0/10 | 前50% | #模型评估 | #基准测试 | #音频问答 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 1.3/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Nguyen Quang Trung(南洋理工大学,LMMs-Lab) 通讯作者:未说明 作者列表:Nguyen Quang Trung(南洋理工大学,LMMs-Lab),Yiming Gao(南洋理工大学,LMMs-Lab),Fanyi Pu(南洋理工大学,LMMs-Lab),Kaichen Zhang(南洋理工大学,LMMs-Lab),Shuo Sun(约翰霍普金斯大学),Ziwei Liu(南洋理工大学,LMMs-Lab) 💡 毒舌点评 这篇论文精准地定义并量化了全模态LLM中一个核心但被忽视的“感知-行动鸿沟”问题,其IMAVB基准测试的2×2设计堪称教科书式的诊断工具;然而,作为“干预”的PGLA本质上是一个依赖于同一数据集训练探针的诊断性调整,其在真实、开放世界场景中的泛化能力和实际部署价值被高估了,诊断本身很彻底,但治疗方案可能只是止痛药。 📌 核心摘要 要解决什么问题:当全模态大语言模型(LLM)遇到与其自身感官输入(视觉、音频)相矛盾的文本前提时,其失败究竟是源于感知层面(未能检测到矛盾)还是行动层面(检测到了但未能在输出中拒绝)?现有的协同性基准测试无法揭示这种失败模式。 方法核心是什么:论文提出了IMAVB(一个500个电影片段的2×2设计基准测试),通过保持视频和音频不变,仅交换问题文本中的一个前提细节来创建“标准”和“误导性”问题。结合线性探针(分析隐藏状态)和引导对数调整(PGLA,一种推理时干预方法),来诊断模型内部表示与外部行为之间的脱节。 与已有方法相比新在哪里:与现有的跨模态基准测试(如AVHBench)相比,IMAVB使用隐含的虚假前提(而非明确验证提示)、长视频(1-5分钟),并保留所有模态同时竞争注意力。这是首次系统性地将“内部-外部脱节”现象从纯文本LLM扩展到跨模态感知领域,并量化了其模态不对称性(音频接地弱于视觉)。 主要实验结果如何:在8个开源全模态LLM和Gemini 3.1 Pro上,论文发现了显著的“表示-行动鸿沟”:线性探针可以从隐藏状态中以高达86%的准确率解码出误导性前提,但模型的实际拒绝率极低(多数开源模型在音频误导性检测上为0%)。PGLA通过将内部信号反馈至输出,在所有8个开源模型上平均提升了15.0个百分点的平衡准确率。 模型 基线平衡准确率 (%) PGLA后平衡准确率 (%) 提升 (pp) Uni-MoE-2.0-Omni 38.2 57.0 +18.8 MiniCPM-o 2.6 31.6 49.2 +17.6 OLA 37.4 54.9 +17.5 Video-SALMONN-2 38.2 55.1 +16.9 Qwen2.5-Omni 37.5 53.4 +15.9 OmniVinci 38.4 53.0 +14.6 Qwen3-Omni 45.9 57.7 +11.8 Baichuan-Omni-1.5 36.8 43.5 +6.7 平均 38.0 53.0 +15.0 实际意义是什么:研究结果表明,提升全模态LLM的感知接地能力,瓶颈可能不在于更大的编码器或更丰富的表示,而在于训练目标未能将内部检测到的矛盾信号与最终输出对齐。这为未来针对“诚实”或“接地”的训练改进指明了方向。 主要局限性是什么:基准测试局限于电影领域,可能无法推广到所有视频类型;误导性前提是单次细节交换;PGLA的干预是基于同一基准测试数据训练的,其跨域泛化能力未经验证;对商用模型(Gemini)的分析仅限于行为层面,缺乏表示分析。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。论文中提及“all code will be publicly released”以及“code is included in the supplementary material”,但未给出具体的GitHub等仓库地址。 模型权重:论文中未提及提供预训练或微调的模型权重链接。 数据集:IMAVB数据集。论文中提及一个匿名访问链接:https://huggingface.co/datasets/anonymousneurips/IMAVB。论文还承诺在接收后将与lmms-eval集成并公开发布。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的实验设置、评估协议和实现细节,主要包含在附录中(如Appendix J, L, G)。评估使用了开源框架lmms-eval(链接:https://github.com/EvolvingLMMs-Org/lmms-eval)。所有实验使用温度0、top-p和top-k为1的设置,并报告95%的bootstrap置信区间。开放源代码模型的评估在8块NVIDIA H100 80GB GPU上进行。 论文中引用的开源项目: lmms-eval:开源多模态评估框架。论文中引用为lmms-eval,链接:https://github.com/EvolvingLMMs-Org/lmms-eval。 评估的开源全模态LLM(论文中未提供其官方权重或代码链接,仅列出名称):OLA, OmniVinci, Qwen2.5-Omni, MiniCPM-o 2.6, Uni-MoE-2.0-Omni, Baichuan-Omni-1.5, Video-SALMONN-2, Qwen3-Omni。 商业模型:Gemini 3.1 Pro(通过API评估,未开源)。 数据生成与标注中使用的模型:Qwen3.5-27B, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Thinking, GPT-4o(论文中未提供这些模型的具体链接)。 其他方法(论文中提及但未提供实现链接):Inference-Time Intervention (ITI), Representation Engineering (RepE), Visual Contrastive Decoding (VCD), Instruction Contrastive Decoding (ICD), AVCD, Fork-Merge Decoding, OPERA, Self-Introspective Decoding, DoLa。 🏗️ 方法概述和架构 本文的核心方法框架是一个用于诊断和量化全模态LLM中“表示-行动鸿沟”的系统流程,包含基准测试构建、多维度分析与诊断干预三个主要阶段。 ...

2026-05-14 · 更新于 2026-05-19 · 4 min · 720 words

Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

📄 Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search #基准测试 #模型评估 #跨模态 #音频问答 #多模态代理 ✅ 6.0/10 | 前25% | #基准测试 | #模型评估 | #跨模态 #音频问答 | arxiv 学术质量 6.0/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tao Yu (中国科学院自动化研究所 CASIA,中国科学院大学 UCAS,北京人工智能研究院 BAAI) 通讯作者:Yan Huang (中国科学院自动化研究所 CASIA),Liang Wang (中国科学院自动化研究所 CASIA) 作者列表:Tao Yu (CASIA, UCAS, BAAI),Yiming Ding (CASIA),Shenghua Chai (CASIA),Minghui Zhang (CASIA),Zhongtian Luo (CASIA),Xinming Wang (CASIA, UCAS),Xinlong Chen (CASIA, UCAS),Zhaolu Kang (Peking University),Junhao Gong (Peking University),Yuxuan Zhou (Tsinghua University),Haopeng Jin (CASIA),Zhiqing Cui (CASIA),Jiabing Yang (CASIA, UCAS),YiFan Zhang (CASIA, UCAS),Hongzhu Yi (UCAS),Zheqi He (BAAI),Xi Yang (BAAI),Yan Huang (CASIA, UCAS),Liang Wang (CASIA, UCAS) 💡 毒舌点评 亮点:论文精准地识别了当前全模态评测中“被动接收多模态信息”范式的局限,定义了“音频驱动的主动全模态深度搜索”这一重要且现实的新任务,并系统性地构建了首个基准。这对于推动多模态智能体从“理解”走向“行动”具有明确的指导价值。短板:作为基准,其影响力受限于相对有限的规模(640个样本) 和对特定搜索工具、流程及提示策略的强依赖。论文声称解决了“主动搜索”的评测空白,但其核心贡献更接近于一个高度结构化的、依赖工具的评估流水线,而非对模型内在推理能力的无偏测量。实验部分缺乏与现有相关基准(如BrowseComp-VL, VideoBrowserComp)在类似模型上的直接横向对比,削弱了其挑战性定位的独特性。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 438 words

Task-Aware Answer Preservation under Audio Compression for Large Audio Language Models

📄 Task-Aware Answer Preservation under Audio Compression for Large Audio Language Models #音频大模型 #长音频处理 #音频压缩 #音频问答 #模型评估 #部署优化 ✅ 6.5/10 | 前25% | #音频问答 | #音频压缩 | #音频大模型 #长音频处理 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Amir Ivry(Technion–Israel Institute of Technology,电气与计算机工程系) 通讯作者:Amir Ivry(aivry@ieee.org) 作者列表:Amir Ivry(Technion–Israel Institute of Technology,电气与计算机工程系) 💡 毒舌点评 这篇论文为“如何在压缩音频时保住回答正确率”这个实际问题,搭建了一套非常严谨的理论评估框架(家庭级超额风险),比简单地看平均准确率高级得多。它还煞费苦心地设计了实验来验证理论预测,比如平均指标如何“隐藏”最差情况。然而,理论很丰满,实践却骨感:论文自己用作案例的“学习型选择器”不仅在V1里训练得“早退”了,而且在V2实验中,那个理论上能省预算的“查询条件压缩”,增益忽正忽负,甚至在特定数据集(MMSU)上还帮了倒忙,让人怀疑这个“任务感知”到底有多少实战价值。最终,它更像是一份严谨的“评估方法论文”而非一个“压缩算法突破”。 📌 核心摘要 要解决什么问题:大型音频语言模型在部署时,常需压缩输入音频以降低内存和延迟。但这可能导致对某些特定类型问题的回答准确性急剧下降,而这种损害会被整体平均准确率所掩盖,存在部署风险。 方法核心是什么:提出一个任务感知的答案保留框架。该框架将压缩器的评估从“整体误差”转向“最坏查询家族的超额误差”。它形式化了家庭级超额风险(Δ_𝒬)和答案保留前沿(b_𝒬⋆),并推导出一个实用的签核协议,该协议考虑了查询家族划分、统计置信区间和解耦审计(§4, 5)。 与已有方法相比新在哪里:据作者称,这是首个将部署时的压缩预算决策与特定查询家族的答案保留明确联系起来的框架。它超越了基于平均性能或感知保真度的传统评估,引入了家庭级风险保证和查询条件压缩的理论优势分析(定理3.4),并提供了可操作的签核流程(算法1)。 主要实验结果如何:在五个音频问答基准和两个Qwen骨干模型上评估。关键发现包括: (a) 家庭级损害隐藏:数据集平均误差(Δ_avg)总是低估了最坏家族的误差(Δ_fam),差距在AudioMCQ-StrongAC上高达6.79个百分点(在关键词划分下,见表1和图1、图3)。 (b) 划分决定结论:查询家族划分的粒度(关键词、原生、语义)显著影响测得的家庭级风险差距和批准的压缩预算(表13)。 (c) 查询条件压缩是情景依赖的:理论上可节省预算(定理3.4),但在实践中仅在AudioMCQ-StrongAC数据集上表现出稳定正增益(表3和表20、21),在MMSU的某些任务(如对话轮次计数、语调感知)上甚至有害(表28、图13,§I.11)。 (d) 查询条件压缩器在使用查询:解耦审计(§5.1)表明,在AudioMCQ-StrongAC上,查询条件选择器的查询使用对下游答案保留前沿有显著影响(表4)。 实际意义是什么:为音频大模型的部署提供了一套更可靠的压缩接口签核流程。它强调了报告家庭级性能、审慎选择查询划分的重要性,并指出了查询条件压缩策略的适用边界和局限性。 主要局限性是什么:(a) 实验依赖特定类型的“硬分块保留”压缩器和启发式查询家族划分(§H.2,§G.6)。(b) 作为案例的学习型选择器在V1中训练不完整(早停,§H.3),其查询条件压缩优势在实践中不稳定(§I.7)。(c) 理论假设查询在编码时可用,且与音频独立,这不适用于离线归档压缩(§Limitations)。(d) 论文未完全解耦信息丢失与下游模型能力不足的影响(仅部分估计了模型类差距,§J.5)。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提供(论文引用了 Qwen2-Audio-7B-Instruct [3] 和 Qwen2.5-Omni-7B [25],但未提供具体下载链接)。 数据集: DCASE 2026 dev: https://dcase-repo.github.io/dcase2026/challenge/task_audio_dependent_question_answering/dev/ AudioMCQ-StrongAC: https://huggingface.co/datasets/voidful/AudioMCQ (论文中引用了 [9],并指出评测集为 “StrongAC” 子集) MMSU: https://huggingface.co/datasets/moonwu/MMSU (论文引用 [24]) MMAR: https://huggingface.co/datasets/juliusfrost/MMAR (论文引用 [15]) BigBench Audio: https://huggingface.co/datasets/juliusfrost/bigbench-audio (论文引用 [20, 21]) Demo:论文中未提及。 复现材料:论文提供了非常详尽的附录,构成了主要的复现材料: 附录 D:扩展的问题设置和操作预算细节。 附录 E:主文所述理论的完整证明和辅助推导。 附录 F:实际估计器、不确定性聚合和坐标轴约定。 附录 G:数据集和查询家族详情。 附录 H:实验协议,包括模型、选择器架构、训练配方、评估协议和推断时压缩器配置。 算法 1:面向实践者的候选压缩器签核协议。 附录 I:包含所有次要图表、表格、消融研究和家族级分析。 附录 J:记录了不完整或可疑结果及注意事项。 论文中引用的开源项目: Qwen2-Audio: https://arxiv.org/abs/2407.10759 (论文引用 [3]) Qwen2.5-Omni: https://arxiv.org/abs/2503.20215 (论文引用 [25]) SoundStream: https://arxiv.org/abs/2107.00637 (论文引用 [28]) EnCodec: https://arxiv.org/abs/2210.13438 (论文引用 [5]) AudioLM: https://arxiv.org/abs/2208.09392 (论文引用 [2]) Gumbel-softmax: https://arxiv.org/abs/1611.01144 (论文引用 [10]) AdamW 优化器: 未提供具体链接,但为标准优化器(论文提及)。 e5-large-v2 嵌入模型:用于语义分区,但未提供具体链接(论文在 J.6 部分提及)。 Bootstrap 重采样方法:论文引用了 [12, 6, 19, 8] 等标准统计文献。 🏗️ 方法概述和架构 该论文提出的是一个评估框架和签核协议,而非一个端到端的压缩模型。其核心是定义一套方法论,用于判断一个给定的音频压缩器在特定部署配置下是否可被接受。 ...

2026-05-08 · 更新于 2026-05-19 · 4 min · 751 words

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio #音频问答 #数据集 #多模态模型 #医学音频 #基准测试 ✅ 6.5/10 | 前25% | #音频问答 | #数据集 | #多模态模型 #医学音频 | arxiv 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Harshit Rajgarhia(未说明所属机构) 通讯作者:论文中未提及 作者列表:Harshit Rajgarhia(未说明)、Shuubham Ojha(未说明)、Asif Shaik(未说明)、Akhil Pothanapalli(未说明)、Rachuri Lokesh(未说明)、Abhishek Mukherji(未说明)、Prasanna Desikan(未说明) 💡 毒舌点评 亮点:论文正视了医学音频领域数据获取难的痛点,并通过结合合成语音与真实临床对话的方式,构建了一个任务类型丰富、规模可观(46,701 QA对)的基准测试集,填补了该领域的评估空白。短板:摘要仅展示了评测结果(如Gemini 2.5 Pro仅68.1%),但对数据集构建过程中的关键技术(如合成语音如何“精心构造”以模拟伪影)、详细的实验对比分析(与其他音频QA或医学QA基准的对比)着墨甚少,使得其作为“基准”的深度和说服力略显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及具体的下载链接或开源协议。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目:未提及。 补充信息 [实验结果] 补充:论文中明确指出,对13个音频和多模态推理模型进行了评测,并观察到“性能在不同问题类型上存在显著差异”(substantial performance variation across question types)。尽管分析报告中提到“摘要未提供其他模型的具体性能数字”,这与原文信息一致,但原文中强调的“13个模型”这一具体数量和对“问题类型间差异”的观察是明确存在的事实,可以作为更完整的背景信息。 (注:经仔细比对,提供的“深度分析结果”已全面且准确地覆盖了“论文原文”中所有实质性信息,包括模型架构(未提及)、实验结果核心数据(Gemini-2.5-pro约68.1%)、训练细节(不适用)、消融实验(未提及)、自我声明的局限性(分析中已推断)以及SOTA差距(仅提及单一模型结果)。原文本身为摘要性质,未提供更详细的实验数据、对比表格或消融分析,因此分析报告无法基于现有信息补充更多具体数值或细节。) ...

2026-05-05 · 更新于 2026-05-19 · 1 min · 119 words

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #多模态模型 #音视频 🔥 8.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Reza Pourreza(Qualcomm AI Research) 通讯作者:未明确说明 作者列表:Reza Pourreza(Qualcomm AI Research), Rishit Dagli(University of Toronto / Qualcomm AI Research), Apratim Bhattacharyya(Qualcomm AI Research), Sunny Panchal(Qualcomm AI Research), Guillaume Berger(Qualcomm AI Research), Roland Memisevic(Qualcomm AI Research) 💡 毒舌点评 论文的亮点在于精准地抓住了当前多模态大模型从“离线理解”走向“实时交互”的关键瓶颈,并构建了一个极具针对性的真实世界问答基准,为社区指明了明确的改进方向。然而,其短板在于数据集规模相对有限(2900条),且核心评估指标依赖LLM judge,可能引入新的评估偏差,而提出的“流式基线”方法相对简单,更多是概念验证而非技术突破。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 261 words

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频大模型 #强化学习 #音频问答 #多模态模型 #数据集 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #多模态模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Daiqing Wu(中国科学院信息工程研究所 IIE, ByteDance中国) 通讯作者:Yangyang Kang(ByteDance中国), Yu Zhou(南开大学 VCIP & TMCC & DISSec) 作者列表: Daiqing Wu(IIE, ByteDance中国, 中国科学院大学) Xuan Zhang(ByteDance中国) Dongbao Yang(IIE) Jiashu Yao(ByteDance中国) Longfei Chen(上海科技大学信息科学与技术学院) Qingsong Liu(ByteDance中国) Sicheng Zhao(清华大学心理学与认知科学系) Can Ma(IIE) Yangyang Kang(浙江大学, ByteDance中国)(带†和‡标注,应为共同通讯或同等贡献) Yu Zhou(南开大学 VCIP & TMCC & DISSec)(带†和‡标注,应为共同通讯或同等贡献) 💡 毒舌点评 这篇论文最亮眼的是提出了一个符合人类认知直觉的“音频交错推理”框架,并用一套从数据生成到训练的完整工程化方案将其落地,实验也做得扎实全面。然而,其性能提升高度依赖于自动合成的训练数据(EAQA),这本质上是用一个强大的“教师”(DeepSeek-R1)的知识来蒸馏模型,而数据生成的“天花板”和潜在偏差可能限制模型的上限;此外,模型当前只能“回放”原始音频片段,无法进行更复杂的音频分析操作(如慢放、滤波),这为未来的扩展留下了空间,但也是当前的局限。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 226 words

ICLR 2026 - 音频问答 论文列表

ICLR 2026 - 音频问答 共 6 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Incentivizing Consistent, Effective and Scalable Reasoning C 8.5分 前10% 🥈 Echo: Towards Advanced Audio Comprehension via Audio-Interle 8.5分 前10% 🥉 Query-Guided Spatial–Temporal–Frequency Interaction for Musi 8.0分 前25% 4. Can Vision-Language Models Answer Face to Face Questions in 8.0分 前25% 5. Measuring Audio’s Impact on Correctness: Audio-Contribution- 7.5分 前25% 6. WorldSense: Evaluating Real-world Omnimodal Understanding fo 7.0分 前25% 📋 论文详情 🥇 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 541 words

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理 学术质量 8.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院) 通讯作者:未说明 作者列表:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校),Roger Ren (Amazon),Jingyuan Li (Amazon),Rahul Pandey (Amazon),Prashanth Gurunath Shivakumar (Amazon),Ivan Bulyko (Amazon),Ankur Gandhe (Amazon),Ge Liu (伊利诺伊大学厄巴纳-香槟分校),Yile Gu (Amazon) 💡 毒舌点评 亮点在于系统性地诊断并解决了音频LLM推理的“测试时逆缩放”这一实际且重要的“反直觉”现象,并建立了一套从过程奖励到可扩展能力的完整方法论。短板是其基于GRPO的在线强化学习训练计算成本高昂(需要8块H200训练61小时),且多奖励组件的超参数调节(如α权重)虽经实验验证,但给实际复现增加了一定复杂度。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 261 words

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频问答 #音频大模型 #强化学习 #数据集 #后训练 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haolin He(香港中文大学、蚂蚁集团) 通讯作者:Jian Liu(蚂蚁集团), Qiuqiang Kong(香港中文大学) 作者列表:Haolin He(香港中文大学、蚂蚁集团), Xingjian Du(罗切斯特大学), Renhe Sun(蚂蚁集团), Zheqi Dai(香港中文大学), Yujia Xiao(香港中文大学), Mingru Yang(蚂蚁集团), Jiayi Zhou(蚂蚁集团), Xiquan Li(上海交通大学), Zhengxi Liu(香港中文大学), Zining Liang(香港中文大学), Chunyat Wu(香港中文大学), Qianhua He(华南理工大学), Tan Lee(香港中文大学), Xie Chen(上海交通大学), Wei-Long Zheng(上海交通大学), Weiqiang Wang(蚂蚁集团), Mark D Plumbley(伦敦国王学院), Jian Liu(蚂蚁集团), Qiuqiang Kong(香港中文大学) 💡 毒舌点评 亮点:论文敏锐地捕捉并量化了“音频语言模型不听音频”这一核心问题,提出的“音频贡献”度量与过滤方法逻辑自洽,且基于此设计的Weak-to-Strong和Mixed-to-Strong训练范式确实有效,在多个基准上取得了扎实的SOTA结果。 短板:整个框架高度依赖Qwen2.5-Omni作为基座模型验证,其结论在不同架构(如纯编码器-解码器模型)上的泛化性未可知;且“音频贡献”的定义(用静音替换音频)过于粗暴,无法区分解码器是“忽略”了音频还是“错误处理”了音频。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 243 words