Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

📄 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning #多模态推理 #基准测试 #大语言模型 #跨模态 ✅ 7.5/10 | 前25% | #多模态推理 | #基准测试 | #大语言模型 #跨模态 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(苏黎世联邦理工学院计算机系,标注为同等贡献) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 作者列表:Yucheng Wang(苏黎世联邦理工学院计算机系)、Yifan Hou(苏黎世联邦理工学院计算机系)、Aydin Javadov(苏黎世联邦理工学院计算机系)、Mubashara Akhtar(苏黎世联邦理工学院计算机系)、Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 💡 毒舌点评 亮点:论文构建了一套精妙的逻辑推理框架,将模态交互分解为六种可控模式,这种“解剖学”式的系统评估在当前多模态评估中少见且有价值。短板:依赖高度简化的合成逻辑数据来揭示“根本瓶颈”,其结论能否无缝迁移到复杂、开放的真实世界多模态推理场景中,存疑。 🔗 开源详情 代码:论文声明代码和数据公开可用(附录提到GitHub仓库),提供了生成脚本和评估协议。 模型权重:未提供。使用的是四个公开的开源模型(Baichuan-Omni, Qwen2.5-Omni, MiniCPM-o, Phi-4 Multimodal)。 数据集:合成数据,论文提供了生成代码,但未提及独立的数据集下载包。 Demo:未提及。 复现材料:提供了详细的实验设置、提示模板(附录A.3)、线性探针设置(附录A.2),复现材料充分。 论文中引用的开源项目:依赖CosyVoice2 TTS进行音频生成,依赖GraphViz进行视觉图表生成,引用了Clark et al. (2020)和Liang et al. (2023)的代码用于事实和规则生成。 📌 核心摘要 要解决什么问题:解决多模态大语言模型(MLLM)在推理时,额外模态有时有帮助、有时有害的矛盾现象,缺乏一个可控的评估框架来隔离分析其内部原因。 方法核心是什么:提出一个基于逻辑推理的评估框架,将多模态交互系统性地分为六种模式(等价、替代、蕴含、独立、矛盾、互补),通过合成数据控制事实信息在模态间的分布与组合逻辑,以隔离不同因素的影响。 与已有方法相比新在哪里:超越了将模型视为黑盒的性能评估,转向对模态交互模式的系统性诊断和内部机制(注意力、层内表征)的探针分析。新在提出了任务组合瓶颈和融合瓶颈这两个核心诊断概念,并通过干预实验验证。 主要实验结果如何: 整体发现:文本单模态基线通常已接近天花板性能。多模态仅在提供独立且充分的推理路径(替代模式)时略有帮助(平均+12.7%至+14.8% vs 视觉/音频单模态基线);冗余信息(等价模式)无益甚至有害;跨模态多跳链(蕴含模式)严重损害性能(平均下降7.1%-12.8%)。 瓶颈诊断:独立模式暴露性能偏差(如文本最强,视觉最弱);矛盾模式暴露偏好偏差(模型在冲突时倾向某些模态,与其自身单模态性能不一致);互补模式暴露融合偏差(性能低于任何单模态基线,平均仅52.0% vs 文本94.6%)。 内部机制分析:注意力模式无法有效编码信息的“有用性”;两步提示法(先识别后推理)显著缓解了任务组合瓶颈;模态身份在早期层高度可辨识,调整早期层注意力温度可改善融合偏差。 实际意义是什么:指明了MLLM的核心障碍在于信息整合而非感知。未来的模型设计应关注组合感知的训练目标、早期融合的控制机制以及显式的证据选择能力。 主要局限性:实验完全基于精心构造的合成逻辑推理任务(单步演绎),其结论是否能泛化到更复杂、更开放的真实世界多模态推理(如视觉问答、文档理解)有待验证。所选模态(文本、TTS音频、图表视觉)过于简化,未涵盖自然图像、视频等更常见的模态。 🏗️ 模型架构 本文并非提出一个新的端到端多模态大语言模型架构,而是提出一个用于诊断现有MLLM推理瓶颈的评估与分析框架。其“架构”主要指实验设置和分析流程。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 301 words

CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition

📄 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition #语音识别 #鲁棒性 #多语言 #自监督学习 #基准测试 🔥 9.0/10 | 前25% | #语音识别 | #鲁棒性 | #多语言 #自监督学习 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Martijn Bartelds (斯坦福大学计算机科学系) & Ananjan Nandi (斯坦福大学计算机科学系),并列第一作者 通讯作者:Martijn Bartelds (bartelds@stanford.edu) & Ananjan Nandi 作者列表:Martijn Bartelds (斯坦福大学计算机科学系)、Ananjan Nandi (斯坦福大学计算机科学系)、Moussa Koulako Bala Doumbouya (斯坦福大学计算机科学系)、Dan Jurafsky (斯坦福大学计算机科学系)、Tatsunori Hashimoto (斯坦福大学计算机科学系)、Karen Livescu (丰田技术学院芝加哥分校) 💡 毒舌点评 亮点:论文精准地戳中了将标准Group DRO应用于CTC损失时“损失值不可比”这一致命痛点,并设计了“长度匹配+平滑目标”这套组合拳来解决,理论分析扎实,实验结果显著(最差语言CER降低高达47.1%)。短板:方法虽然有效,但“平滑最大化目标”的启发式成分较重(α参数),其理论最优性证明有限;此外,“长度匹配”依赖一个目标时长的超参数,其敏感性分析在附录中,可能限制其在新场景的即插即用性。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 345 words

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音对话系统 #模型评估 #语音情感识别 #音频大模型 ✅ 7.0/10 | 前25% | #基准测试 | #模型评估 | #语音对话系统 #语音情感识别 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Li Zhou(香港中文大学(深圳)) 通讯作者:Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院),Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 作者列表:Li Zhou(香港中文大学(深圳))、Lutong Yu(香港中文大学(深圳))、You Lyu(香港中文大学(深圳))、Yihang Lin(香港中文大学(深圳))、Zefeng Zhao(香港中文大学(深圳))、Junyi Ao(香港中文大学(深圳))、Yuhao Zhang(香港中文大学(深圳))、Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院)、Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 💡 毒舌点评 这篇论文系统性地构建了首个面向语音大模型共情能力的多层级评估基准,设计框架清晰(理解-推理-对话),并通过控制变量的脚本设计(语义中性+语音风格变化)巧妙隔离了文本与声学信息的贡献,实验全面(覆盖12个主流模型)。然而,作为一项纯评估工作,其核心贡献在于“发现差距”而非“提供解决方案”,且基准本身的构建依赖于现成的语音合成工具(如Doubao TTS、GPT-4o)和人工标注,通用性和抗偏倚能力有待更广泛的验证。 🔗 开源详情 代码:论文中提及项目网站 https://hlt-cuhksz.github.io/EchoMind/,并承诺将提供代码,但未给出具体代码仓库链接。 模型权重:不适用。本论文是评估基准,不提出新模型。 数据集:论文明确表示将公开所有构建的数据(音频文件、元数据、标注协议)。获取方式预计通过上述项目网站。 Demo:论文中未提及在线演示。 复现材料:论文承诺提供复现所需的数据、代码和实验配置。附录(A-C)详细描述了数据集构建、任务设计、评估指标、实验设置(提示模板、人工评估流程)等细节,为复现提供了充分信息。 论文中引用的开源项目:主要依赖以下开源工具/模型进行评估:Audio Flamingo 3 (Goel et al., 2025), DeSTA2.5-Audio (Lu et al., 2025), VITA-Audio (Long et al., 2025), LLaMA-Omni2 (Fang et al., 2025), Baichuan-Omni-1.5 (Li et al., 2025), GLM-4-voice (Zeng et al., 2024), OpenS2S (Wang et al., 2025c), Qwen2.5-Omni-7B (Xu et al., 2025), Kimi-Audio (KimiTeam et al., 2025), Step-Audio (Huang et al., 2025b), EchoX (Zhang et al., 2025), GPT-4o-Audio (OpenAI, 2024)。以及用于评估的指标模型:Qwen3-Embedding-0.6B, emotion2vec, Gemini-2.5-Pro。 📌 核心摘要 要解决的问题:现有的语音大模型(SLM)基准测试往往孤立地评估语言理解、声学识别或对话能力,缺乏对模型整合非词汇声学线索(如韵律、情绪、生理信号)以实现共情对话能力的系统性评估。 方法核心:提出了EchoMind基准,这是一个模拟人类共情对话认知过程的层次化评估框架,包含三个相互关联的任务层级:(1)内容与语音理解;(2)整合推理;(3)共情对话生成。所有任务共享语义中性、无情感线索的对话脚本,并通过控制不同的语音风格(目标、替代、中性)来隔离语音表达本身的影响。 与已有方法相比新在哪里:EchoMind是首个专注于评估SLM共情能力、且任务间具有关联性的多层级基准。其创新点在于:(a) 构建了覆盖3大维度、12个细分类别、39种声学属性的共情导向评估框架;(b) 设计了从感知到推理再到生成的递进式任务链,并确保任务共享上下文以支持跨层级相关性分析;(c) 引入了针对对话生成响应的多维度(文本和音频)评估指标。 主要实验结果:对12个先进SLM的测试表明,即使是SOTA模型(如GPT-4o-Audio)也难以在生成响应中有效利用高表现力的声学线索。例如,在依赖声学线索的文本评估维度“语音信息相关性”(CSpeechRel)上,没有任何模型的平均分超过4分(满分5分)。音频层面的“声乐共情得分”(VES)也普遍较低。模型在“语音风格检测”和“背景声音检测”等理解任务,以及“先行事件推断”和“共情响应选择”等推理任务上表现尤其薄弱。 实际意义:该基准为评估和推动SLM向具备真正情感智能的对话系统发展提供了标准化工具,揭示了当前模型在指令遵循、对自然语音变体的鲁棒性以及有效利用声学线索方面的普遍短板,指明了未来研究方向。 主要局限性:a) 基准构建高度依赖TTS合成语音,虽然提供了人工录制子集进行对比,但合成语音的自然度和表现力可能存在上限;b) 评估主要依赖自动化指标(包括用大模型评分),虽然进行了人工评估验证,但主观评估成本高,难以大规模进行;c) 作为评估工作,其本身并不提出解决模型共情能力不足的新方法。 🏗️ 模型架构 本文提出的EchoMind并非一个AI模型,而是一个评估基准框架。其核心是设计一个模拟人类共情对话认知过程的评估流水线。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 261 words

From Natural Alignment to Conditional Controllability in Multimodal Dialogue

📄 From Natural Alignment to Conditional Controllability in Multimodal Dialogue #语音合成 #多模态模型 #预训练 #多任务学习 #基准测试 🔥 8.0/10 | 前25% | #语音合成 | #多任务学习 | #多模态模型 #预训练 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zeyu Jin(清华大学计算机科学与技术系)(论文标注共同贡献) 通讯作者:Xiaoyu Qin(清华大学计算机科学与技术系)、Jia Jia(清华大学计算机科学与技术系/BNRist) 作者列表: Zeyu Jin(清华大学计算机科学与技术系) Songtao Zhou(清华大学计算机科学与技术系)(共同贡献) Haoyu Wang(清华大学计算机科学与技术系) Minghao Tian(Rice University) Kaifeng Yun(清华大学深圳国际研究生院) Zhuo Chen(字节跳动) Xiaoyu Qin(清华大学计算机科学与技术系) Jia Jia(清华大学计算机科学与技术系/BNRist) 💡 毒舌点评 论文在数据集构建和任务定义上表现出色,其提出的数据整理管道和“情感三元组”标注范式为可控多模态对话研究提供了坚实基础,但核心模型创新有限,且部分实验局限于验证数据集有效性,未能充分探索更先进的生成架构。 🔗 开源详情 代码:论文在摘要和结论中明确提到将公开代码和数据整理管道,GitHub仓库链接已在论文中给出(https://github.com/jessyjinzy/MM-Dia)。 模型权重:论文未提及将公开其微调后的模型(如Higgs-Audio-V2-SFT)权重。 数据集:MM-DIA和MM-DIA-BENCH已承诺开源,但具体获取方式需联系作者或等待发布。 Demo:论文提到了一个演示页面(https://mmdiaiclr26.github.io/mmdiaiclr26/),展示了不同控制变量下的语音合成样本。 复现材料:论文在“Reproducibility Statement”中承诺提供数据集、代码、模型配置、训练过程和评估协议的细节。附录包含了管道实现的部分算法和消融实验,但完整的训练超参数和硬件信息缺失。 引用的开源项目:论文中提到了多个依赖的开源工具和模型,包括:Higgs-Audio-V2 (Boson AI)、Dia-1.6B (Nari Labs)、Gemini-2.5系列、Qwen2.5-VL、InsightFace工具包、多个基线模型(HarmoniVox, FLOAT, MultiTalk, Sonic, Wan-2.2, HunyuanVideo)以及UTMOS、WER等评估工具。 📌 核心摘要 这篇论文旨在解决可控多模态对话生成中面临的三个核心挑战:高质量原生多模态对话数据稀缺、交互级语义的可扩展标注方法缺失,以及系统性评估基准不足。 其核心方法是构建了一个从电影和电视剧中自动提取、标注对话的“数据整理管道”,并据此创建了大规模多模态对话数据集 MM-DIA(360+小时,54,700段对话)。该数据集首次专注于跨模态的对话表达力,提供了句子级和对话级的细粒度交互标注,包括说话人身份、非语言声音和两种表达力标注范式:“情感三元组”(关系、互动模式、情感基调)和“自由描述”。同时,论文提出了 MM-DIA-BENCH 作为评估跨模态风格一致性的基准。 论文正式定义了多模态对话生成(MDG)任务,并将其应用于三个具体任务:1)风格可控对话语音合成(显式控制),2)视觉条件对话语音合成(隐式控制),3)语音驱动对话视频生成(隐式控制)。 主要实验结果显示:在MM-DIA上微调预训练模型(如Higgs-Audio-V2)后,风格可控对话语音合成任务在可懂度(WER从31.25降至4.45)和指令遵循度上显著提升。然而,在MM-DIA-BENCH上的测试表明,现有模型在维持隐式跨模态风格一致性方面存在明显不足,特别是在音视频对齐和对话级表达力方面。 这项工作的实际意义在于为可控、富有表现力的多模态对话生成研究建立了首个大规模数据集、统一任务框架和评估基准,指明了未来需要加强跨模态语义对齐和长程推理的研究方向。主要局限性是MDG任务仍处于初步定义阶段,且现有基线模型在隐式控制任务上表现不佳,表明这是一个开放且具挑战性的领域。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 286 words

GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models

📄 GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models #音乐理解 #多模态模型 #预训练 #强化学习 #基准测试 ✅ 7.0/10 | 前25% | #音乐理解 | #多模态模型 | #预训练 #强化学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明(摘要仅列出作者顺序,未明确标注第一作者) 通讯作者:未说明(摘要未提供此信息) 作者列表:Zuyao You、Zhesong Yu、Mingyu Liu、Bilei Zhu、Yuan Wan、Zuxuan Wu(所属机构均未说明) 💡 毒舌点评 亮点:论文的野心不小,试图用一个统一模型搞定音乐的“全局理解”和“时序理解”两大类任务,并顺手造了个号称最大最全的音乐问答基准MusicBench,对推动领域标准化评估功不可没。 短板:模型架构本身是LLaVA在音频领域的直接迁移,核心创新“混合专家音频编码器”听起来很美,但在摘要中缺乏具体的结构对比和性能消融来证明其不可替代性,更像是工程上的“搭积木”而非原理突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中提及使用了“精心策划的规模化数据集”,但未给出具体名称或开源链接。同时,论文推出了 MusicBench 基准,但未提供其数据集的公开获取地址。 Demo:论文中未提及。 复现材料:论文中描述了“包含预训练、监督微调(SFT)和强化学习(RL)的渐进式训练流程”,但未提供具体的训练配置、检查点或详细的复现指南附录。 论文中引用的开源项目: LLaVA:论文指出其架构继承自LLaVA,但未在文中提供该项目的具体链接。 📌 核心摘要 问题:现有的大型多模态模型在音乐内容理解方面,难以同时高效处理需要时序分析的(如节奏、旋律跟踪)和非时序的(如风格、情绪识别)任务,且缺乏全面的评估基准。 方法核心:提出GaMMA模型,基于LLaVA架构,采用混合专家(MoE)模式整合多个音频编码器,以一套参数统一处理时序与非时序音乐任务。采用包含预训练、监督微调(SFT)和强化学习(RL)的渐进式训练管线。 新意:1) 架构上,MoE音频编码器的设计使模型能自适应地从不同“专家”获取处理不同任务所需的特征。2) 流程上,结合大规模数据与预训练-SFT-RL的三阶段训练,系统性地提升模型能力。3) 贡献了当前最大的音乐理解基准测试集MusicBench。 实验结果:在多个基准上取得SOTA:MuchoMusic上79.1%准确率,MusicBench-Temporal上79.3%,MusicBench-Global上81.3%。论文声称一致超越了先前方法。 实际意义:为音乐信息检索、音乐生成评估、智能音乐助手等应用提供了更强大的底层理解模型,并设立了新的评估标杆(MusicBench)。 局限性:摘要未提及模型的具体参数规模、训练计算开销以及在更广泛音乐流派或噪声环境下的泛化能力。其通用性与效率的权衡有待进一步探讨。 🏗️ 模型架构 GaMMA的整体架构继承自LLaVA,是一个典型的“视觉(音频)编码器-投影层-大语言解码器”的三明治结构,但核心修改在于“音频编码器”部分。 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 162 words

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 通讯作者:Jiale Han(香港科技大学) 作者列表:Xiang Li(北京邮电大学网络与交换技术国家重点实验室,深圳大数据研究院,香港中文大学(深圳),深圳环域研究院),Jiabao Gao(香港中文大学(深圳)),Sipei Lin(香港中文大学(深圳)),Xuan Zhou(香港中文大学(深圳)),Chi Zhang(香港中文大学(深圳)),Bo Cheng(北京邮电大学网络与交换技术国家重点实验室),Jiale Han(香港科技大学),Benyou Wang(深圳大数据研究院,香港中文大学(深圳),深圳环域研究院) 💡 毒舌点评 亮点是首次对语音到语音系统进行了图灵测试,并构建了一个包含18个细粒度维度的诊断框架,不仅指出了“通过/失败”,更深入剖析了“为何失败”,将瓶颈精准定位在非语义层面。短板在于,作为开创性工作,其评估的S2S系统数量和对话场景多样性仍有限,且伪人对话的脚本部分由GPT-4o生成,可能引入了额外的偏差。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Carbohydrate1001/Turing-Test。 模型权重:论文中明确提到公开了模型(“Our code, dataset, and model are publicly available”),但未直接提供权重下载链接,需从上述GitHub仓库获取。 数据集:论文中明确提到公开了数据集,同样需从上述GitHub仓库获取。 Demo:论文中提到了部署了一个游戏化的在线评测平台,但未提供公开的在线演示链接。 复现材料:提供了极其详细的复现信息,包括: 数据收集的完整流程、参与者画像、初始化策略(附录B)。 Turing测试平台的设计细节(附录C)。 18个细粒度维度的定义、标注指南、标注员信息及质量保证流程(附录D)。 AI评委模型的训练框架、嵌入读取策略消融、模型消融、超参数调优(网格搜索与敏感性分析)的完整细节(附录E)。 论文中引用的开源项目:论文在构建伪人对话数据集时,引用了两个开源TTS模型:Nari Dia-1.6B (nari-labs, 2025) 和 Spark-TTS (Wang et al., 2025c)。在评估模型泛化性时,引用了CosyVoice2、Fisher和MultiDialog数据集。 📌 核心摘要 本文旨在回答一个关键问题:当前的语音到语音(S2S)系统能否像人类一样进行对话?为解决此问题,作者首次对S2S系统实施了图灵测试。核心方法是构建一个包含人-人、人-机和伪人(TTS合成)对话的高质量数据集,通过一个游戏化的在线平台收集了近3000次人类判断。与已有工作相比,新在于将图灵测试范式首次全面引入端到端S2S评估,并超越二元通过/失败的结论。主要实验结果显示,所有评估的9个最先进的S2S系统均未通过图灵测试,成功率最高仅为0.31(人类为0.87)。为了诊断失败原因,论文提出了一个包含5大类18个细粒度维度的“拟人度”分类法,并对数据进行了人工标注。分析表明,当前S2S系统的瓶颈不在语义理解(如逻辑连贯性、记忆一致性接近人类水平),而在于韵律特征(如节奏、重音)、情感表达不足以及过度恭维、书面化的“机械人格”。此外,论文探索了使用AI作为评委的可能性,发现9个现成多模态模型表现不佳,因此提出了一个基于Qwen2.5-Omni微调的可解释评委模型,该模型先预测18个细粒度维度分数,再通过线性分类器做出人/机判断,其在测试集上的二分类准确率达到96.05%,显著优于人类评委(72.84%)和基线模型。这项工作的意义在于为S2S系统建立了一个系统化的拟人度评估与诊断框架,并指明了超越语义理解、在副语言和情感个性化方面突破的研究方向。主要局限性是评估的系统和场景覆盖范围可能无法代表整个S2S领域,且伪人对话的脚本部分依赖大语言模型生成。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 233 words

ICLR 2026 - 基准测试 论文列表

ICLR 2026 - 基准测试 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluatio 8.5分 前25% 🥈 MCIF: Multimodal Crosslingual Instruction-Following Benchmar 8.5分 前25% 🥉 WearVox: An Egocentric Multichannel Voice Assistant Benchmar 8.0分 前25% 4. AudioTrust: Benchmarking The Multifaceted Trustworthiness of 7.5分 前25% 5. XModBench: Benchmarking Cross-Modal Capabilities and Consist 7.5分 前25% 6. MMSU: A Massive Multi-task Spoken Language Understanding and 7.5分 前50% 7. VideoMathQA: Benchmarking Mathematical Reasoning via Multimo 7.0分 前25% 8. EchoMind: An Interrelated Multi-level Benchmark for Evaluati 7.0分 前25% 9. STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 6.5分 前25% 📋 论文详情 🥇 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 ...

2026-05-04 · 更新于 2026-05-20 · 6 min · 1203 words

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #音频大模型 #对抗样本 #鲁棒性 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zifan Peng (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 通讯作者:Wenhan Dong (未说明具体单位,但标注为*Corresponding authors),Xinlei He (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 作者列表:Zifan Peng (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学(广州))、Zhen Sun (香港科技大学(广州))、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学(广州))、Jingyi Zheng (香港科技大学(广州))、Wenhan Dong (香港科技大学(广州))、Xinlei He (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学(广州))、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评 亮点:论文的系统性和工程完备性令人印象深刻,它不仅仅是一个数据集,更是一个集成了多种攻击、防御方法和分析工具的标准化评测平台,为尚处蓝海的音频大模型安全研究立下了第一个重要的坐标。短板:防御策略的探索相对浅尝辄止,仅仅是将视觉语言模型的方法简单适配,未能提出真正针对音频模态(如声学特征扰动)的、更有效的防御机制,使得“提出防御”这一目标打了折扣。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 283 words

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization #音视频 #扩散模型 #Transformer #基准测试 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 #Transformer | #扩散模型 #Transformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (浙江大学, 新加坡国立大学) (*共同第一作者) 通讯作者:Hao Fei (新加坡国立大学) 作者列表: Kai Liu (浙江大学,新加坡国立大学) (*共同第一作者) Wei Li (中国科学技术大学) (*共同第一作者) Lai Chen (浙江大学) Shengqiong Wu (新加坡国立大学) Yanhao Zheng (浙江大学) Jiayi Ji (新加坡国立大学) Fan Zhou (浙江大学) Jiebo Luo (罗切斯特大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) (†通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 论文提出了一个架构设计完整、实验验证充分的端到端音视频生成模型,其“分层时空先验估计”的思路有效提升了生成内容的同步性,配套的JavisBench基准和JavisScore指标也直指现有评估的痛点。然而,该模型的计算开销庞大(生成4秒240P视频在H100上耗时30秒),且其在更复杂、更高分辨率或更长时长场景下的泛化能力仍待验证。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 370 words

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

📄 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation #多模态模型 #基准测试 #音视频联合推理 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jianghan Chao(中国人民大学高瓴人工智能学院) 通讯作者:Ruihua Song(中国人民大学高瓴人工智能学院) 作者列表:Jianghan Chao(中国人民大学高瓴人工智能学院),Jianzhang Gao(中国人民大学高瓴人工智能学院),Wenhui Tan(中国人民大学高瓴人工智能学院),Yuchong Sun(中国人民大学高瓴人工智能学院),Ruihua Song(中国人民大学高瓴人工智能学院),Liyun Ru(百川智能) 💡 毒舌点评 亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架,并巧妙地利用先进的LLM构建了自动化数据生成流水线,在保证质量的同时大幅降低了标注成本;短板在于其基准数据集完全来源于SF20K这一特定影视数据集,可能存在领域偏差,且论文主要贡献是评估基准而非新的建模方法,对推动模型架构本身创新的直接贡献有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:公开。论文提供了项目页面链接 (https://jointavbench.github.io),并说明JointAVBench数据集将在该页面发布。 Demo:未提及。 复现材料:论文在附录中提供了生成流水线各阶段使用的详细Prompt模板(如图10-16),这对于复现其数据生成过程至关重要。 论文中引用的开源项目:引用了多个开源模型(Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等)和工具(PySceneDetect)用于构建基准。 整体开源计划:论文明确表示会发布数据集,但代码和模型权重的开源计划未提及。 📌 核心摘要 要解决什么问题:现有评估全模态大语言模型(Omni-LLMs)的基准测试在音视频关联严格性、音频类型多样性和场景复杂度覆盖方面存在不足,无法有效评估模型真正的联合音视频推理能力。 方法核心是什么:提出JointAVBench,一个从5个认知维度、4种音频类型、3个场景跨度构建的15项任务基准。其核心创新在于设计了一个三阶段半自动化数据生成流水线:首先生成全模态描述(视频、语音、声音事件、音乐、声纹特征),然后利用LLM合成严格依赖音视频联合信息的问答对,最后通过通用到特定的多层质量控制确保数据质量。 与已有方法相比新在哪里:这是首个同时满足“严格音视频关联(AV Correlation Ratio 100%)”、“覆盖四种音频类型(含声纹特征)”和“涵盖单场景、跨场景、全场景”的综合基准。与现有基准(如WorldSense,AV Corr. 62.9%)相比,其问题设计更严谨地强制依赖双模态信息。 主要实验结果如何:在JointAVBench上评估了主流Omni-LLMs、Video-LLMs和Audio-LLMs。结果显示,即使最强的Omni-LLM(Gemini2.5-Pro)平均准确率也仅为62.6%,显著优于单模态模型,但在跨场景推理等任务上表现仍不理想。模型在声纹特征和语音相关任务(如SPER, SPL)上表现最差,在涉及声音事件和音乐的任务上表现相对较好。 实际意义是什么:为评估和推动具有真正音视频联合推理能力的Omni-LLM发展提供了关键的、标准化的评测工具,明确指出了当前模型在处理抽象音频信息(如声纹特征、情感)和复杂跨场景推理时的主要短板。 主要局限性是什么:数据源单一(仅SF20K短片),可能引入领域偏差;设计的任务分类法虽全面但无法穷尽所有音视频推理能力;受计算资源限制,实验评估的模型数量有限。 🏗️ 模型架构 本文并非提出一个新的模型架构,而是设计一个评估基准。其核心贡献在于数据生成与质量控制流水线。论文详细描述的流水线架构如下: ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 358 words