Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #多模态模型 #音频场景理解 #视频描述 #基准测试 ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学,南洋理工大学) 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院) 作者列表: Ziyang Ma(上海交通大学,南洋理工大学)* Ruiyang Xu(上海交通大学)* Zhenghao Xing(香港中文大学)* Yunfei Chu(阿里巴巴通义团队) Yuxuan Wang(阿里巴巴通义团队) Jinzheng He(阿里巴巴通义团队) Jin Xu†(阿里巴巴通义团队) Pheng-Ann Heng(香港中文大学) Kai Yu(上海交通大学) Junyang Lin(阿里巴巴通义团队) Eng Siong Chng(南洋理工大学) Xie Chen‡(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文针对多模态细粒度感知中“描述越详细,幻觉越多”的核心矛盾,提出了一个从“侦探”式数据生成到两阶段模型训练,再到全新填空式评估基准的完整解决方案框架,逻辑闭环非常扎实。 短板:虽然设计了智能体数据管线,但其质量上限仍受限于所调用的闭源模型(如Gemini 2.5 Pro)的能力,本质上是用更强的闭源模型给开源模型生成训练数据,创新中略带一丝“取巧”;新基准Omni-Cloze虽然高效,但其“填空”形式与自由生成任务仍有一定差距。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 364 words

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #基准测试 #数据集 #强化学习 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度 高 👥 作者与机构 第一作者:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 通讯作者:Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 作者列表:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院,中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院,中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院,中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院,中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所) 💡 毒舌点评 这篇论文最大的贡献是“立规矩、搭台子”——提出了首个覆盖全模态且支持自由格式偏好的奖励建模基准和数据集,填补了领域空白,为后续研究提供了标准评测场。其短板在于模型架构本身(Omni-RewardModel)是现有技术(如Bradley-Terry框架、GRPO强化学习)在更大规模多模态数据上的直接应用,缺乏针对“自由格式偏好”理解的独创性建模机制。 🔗 开源详情 代码:提供了GitHub仓库链接:https://github.com/HongbangYuan/OmniReward 模型权重:提及了公开Omni-RewardModel权重,下载链接为:https://hf.co/datasets/HongbangYuan/OmniRewardBench (注:此处链接标签为Dataset,但文中暗示模型权重也可能在此或类似路径) 数据集:明确公开两个数据集:Omni-RewardBench (https://hf.co/datasets/HongbangYuan/OmniRewardBench) 和 Omni-RewardData (https://hf.co/datasets/jinzhuoran/OmniRewardData),均托管于HuggingFace。 Demo:论文中未提及在线演示。 复现材料:论文在正文和附录中描述了数据收集、标注流程、模型训练细节(如骨干模型选择、训练数据比例、强化学习算法)以及评估协议,复现信息较为充分。 引用的开源项目:模型构建依赖MiniCPM-o-2.6和Qwen2.5-VL等开源多模态模型。训练数据整合了多个公开数据集,如Skywork-Reward-Preference, RLAIF-V, HPDv2, VideoDPO等。 📌 核心摘要 要解决什么问题:现有的奖励模型存在两个核心挑战:一是模态不平衡,主要关注文本和图像,对音频、视频、3D等模态支持不足;二是偏好刚性,基于固定的二元偏好对训练,无法捕捉复杂多样的个性化偏好。 方法核心是什么:提出Omni-Reward框架,包含三个核心组件:(1) 评测基准Omni-RewardBench,首个支持自由格式偏好描述、覆盖9类任务5种模态的奖励模型评测集;(2) 训练数据集Omni-RewardData,包含248K通用偏好对和69K用于指令微调的自由格式偏好对;(3) 模型Omni-RewardModel,包括判别式(BT)和生成式(R1)两种全模态奖励模型。 与已有方法相比新在哪里:(1) 首次系统性地将奖励建模扩展到全模态场景(包括音频、3D);(2) 首次在奖励建模中引入自由形式的自然语言偏好描述,替代传统的二元选择,以支持动态、个性化的偏好对齐;(3) 构建了迄今为止最全面的多模态奖励建模训练数据集。 主要实验结果如何: 在自有基准Omni-RewardBench(w/ Ties设置)上,Omni-RewardModel-BT达到65.36% 准确率,超越最强基线(Claude 3.5 Sonnet的66.54%已属顶级,但模型整体仍有提升空间)。 在公开基准VL-RewardBench上,Omni-RewardModel-BT达到76.3% 准确率,取得SOTA性能。 消融实验证明,使用混合多模态数据进行训练比单模态数据显著提升泛化能力;指令微调数据对于处理自由格式偏好至关重要。 模型 Omni-RewardBench (w/ Ties) VL-RewardBench Claude 3.5 Sonnet (最强基线) 66.54% 55.3% Omni-RewardModel-BT 65.36% 76.3% Omni-RewardModel-R1 60.18% 未报告 实际意义是什么:为未来的全模态大模型(如GPT-4o, Qwen2.5-Omni)提供了对齐所需的关键基础设施——评测标准和训练数据。推动了奖励建模从“固定偏好”向“个性化偏好”的范式转变,使AI系统能更灵活地适应不同用户或场景的具体需求。 主要局限性是什么:(1) Omni-RewardBench的规模(3.7K对)相对较小,可能不足以全面评估超大规模模型;(2) 任务定义相对粗粒度,每种模态任务内的多样性还可进一步细分;(3) 当前数据仅限单轮交互,未涵盖多轮对话偏好。 🏗️ 模型架构 Omni-RewardModel包含两个变体,其整体架构如下图所示。核心是基于一个多模态大语言模型(如MiniCPM-o-2.6或Qwen2.5-VL)作为骨干网络,处理来自文本、图像、视频、音频等模态的输入。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 367 words

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、南方科技大学、快手科技) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学,南方科技大学,快手科技),Shengjun Zhang(快手科技),Da Li(快手科技,中国科学院大学),Yuxiao Luo(快手科技,北京大学),Yan Wang(快手科技),Di Xu(快手科技),Biao Yang(快手科技),Wei Yuan(快手科技,项目负责人),Fan Yang(快手科技,项目负责人),Zhihai He(南方科技大学,通讯作者),Wenming Yang(清华大学,通讯作者) 💡 毒舌点评 亮点:论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题,并通过一个高质量、大规模的诊断基准(OmniCVR)将其量化,这比提出一个改进模型更有价值。短板:提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型,这种“音频-文本化”的工程化方案虽然有效,但显得不够优雅,且引入了额外的延迟和潜在信息损失,算不上是最根本的端到端解决方案。 🔗 开源详情 代码:论文承诺将开源完整代码库,包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示,但提到数据将发布在HuggingFace(https://huggingface.co/datasets/Jun-Yang/OmniCVR),代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。 模型权重:论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。 数据集:OmniCVR数据集(包括160K+片段、50K+三元组、5K测试集)将完全开源。获取方式为通过上述HuggingFace链接。 Demo:论文中未提及是否提供在线演示。 复现材料:论文在附录(Appendix G)中提供了用于数据生成(如生成视频描述、修改指令)的完整提示词模板,以及详细的双重验证协议说明,这对于复现数据生成管线至关重要。然而,关于模型训练的具体细节(学习率、优化器、批次大小等)论文中未提及。 论文中引用的开源项目/模型:论文明确使用了以下开源模型作为组件或基线: Qwen2.5-Omni:用于视频音频标注生成。 Gemini 2.5 Pro:用于数据验证。 Qwen2-Audio-7B-Instruct:用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL:作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect:用于视频分割。 所有使用的数据集(HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR)均为公开数据集。 📌 核心摘要 本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR,该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组(源视频、修改文本、目标视频)的大规模数据集,其中超过57%的查询需要同时修改视觉和音频(集成查询)。为此,作者设计了一个可扩展的自动化数据生成管线,并通过大模型与人类专家的双重验证确保数据质量。为验证基准,论文提出了AudioVLM2Vec模型,其核心创新是利用音频理解大模型(Qwen2-Audio)将音频转为细粒度描述文本,再与视觉信息一同输入VLM2Vec框架。主要实验结果表明,AudioVLM2Vec在OmniCVR基准上取得了最优性能,尤其是在音频中心查询上,相比基线VLM2Vec实现了巨大的性能提升(R@1从12.4提升到77.2)。这证明了显式注入音频语义对于跨模态检索的关键作用,并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准,推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟(约1.77倍),且该方案可能无法完美捕捉音频的所有非语义信息(如音色、节奏等)。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 247 words

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Caorui Li(东南大学、南京大学) 通讯作者:Jiaheng Liu(南京大学) 作者列表:Caorui Li(东南大学、南京大学)、Yu Chen(东南大学、南京大学)、Yiyan Ji(南京大学)、Jin Xu(阿里巴巴集团)、Zhenyu Cui(东南大学)、Shihao Li(南京大学)、Yuanxing Zhang(快手科技)、Zhenghao Song(M-A-P)、Dingling Zhang(南京大学)、Ying He(北京科技大学)、Haoxiang Liu(北京科技大学)、Yuxuan Wang(阿里巴巴集团)、Qiufeng Wang(东南大学)、Jiafu Tang(南京大学)、Zhenhe Wu(M-A-P)、Jiehui Luo(中央音乐学院)、Zhiyu Pan(南京大学)、Weihao Xie(华中科技大学)、Chenchen Zhang(M-A-P)、Zhaohui Wang(南京大学)、Jiayi Tian(阿里巴巴集团)、Yanghai Wang(南京大学)、Zhe Cao(南京大学)、Minxin Dai(南京大学)、Ke Wang(M-A-P)、Runzhe Wen(南京大学)、Yinghao Ma(伦敦玛丽女王大学)、Yaning Pan(复旦大学)、Sungkyun Chang(伦敦玛丽女王大学)、Termeh Taheri(伦敦玛丽女王大学)、Haiwen Xia(北京大学)、Christos Plachouras(伦敦玛丽女王大学)、Emmanouil Benetos(伦敦玛丽女王大学)、Yizhi Li(曼彻斯特大学)、Ge Zhang(M-A-P)、Jian Yang(M-A-P)、Tianhao Peng(M-A-P)、Zili Wang(M-A-P)、Minghao Liu(2077AI)、Junran Peng(北京科技大学)、Zhaoxiang Zhang(中国科学院)、Jiaheng Liu(南京大学) 💡 毒舌点评 该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题,并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集,其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而,其核心贡献是一个评测基准(Benchmark)而非一个解决该难题的新模型,且目前数据集尚未完全公开,这限制了其即时影响力。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 292 words

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #语音大模型 #语音合成 #基准测试 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #语音合成 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shu-wen Yang(台湾大学通讯工程研究所) 通讯作者:Ming Tu(字节跳动 Seed),Lu Lu(字节跳动 Seed) 作者列表:Shu-wen Yang(台湾大学通讯工程研究所,字节跳动 Seed†),Ming Tu(字节跳动 Seed†),Andy T. Liu(字节跳动 Seed),Xinghua Qu(字节跳动 Seed),Hung-yi Lee(台湾大学通讯工程研究所),Lu Lu(字节跳动 Seed†),Yuxuan Wang(字节跳动 Seed),Yonghui Wu(字节跳动 Seed) 💡 毒舌点评 亮点:论文系统性地定义了副语言感知的S2S交互评估难题,并构建了从基准测试到自动评测再到强化学习训练的完整闭环,其提出的“PolyTone”训练策略和多阶段评测框架有效缓解了音频大模型的风格幻觉问题,实验结果令人信服。短板:整个框架高度依赖复杂的多阶段流程和多个外部模型(如Whisper, AudioReasoner, Qwen2.5-Omni),虽然论文提供了蒸馏后的奖励模型方案,但最终模型的轻量化和部署效率存在疑问,且核心RL方法(GRPO)并非原创。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 272 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #流匹配 #基准测试 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学; 阿里巴巴通义团队) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学; 阿里巴巴通义团队)、Kaicheng Luo(阿里巴巴通义团队)、Wen Wang(阿里巴巴通义团队)、Qian Chen(阿里巴巴通义团队)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴通义团队)、Jieping Ye(阿里巴巴通义团队)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点:论文首次将强化学习与分解式思维链(CoT)相结合,应用于视频到音频生成,巧妙地将一个复杂的多目标优化问题分解为四个可解释、可优化的维度,并提供了高效训练算法(Fast-GRPO)和高质量评测基准(AudioCanvas)。短板:该框架高度依赖一个强大的多模态语言模型(如VideoLLaMA2)来生成高质量的CoT训练数据,且音频基础模型本身也采用了多种现有先进组件(如VideoPrism、T5-Gemma),其“从零到一”的原创性贡献相对有限。 🔗 开源详情 代码:论文承诺将公开完整代码,但未提供具体仓库链接。 模型权重:论文承诺将公开所有模型权重。 数据集:论文承诺将公开自建的AudioCanvas基准测试集。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了非常详细的附录,包括训练细节、超参数、资源需求、CoT生成Prompt等,复现信息充分。 论文中引用的开源项目:依赖的开源项目/模型包括:Stability AI的VAE、VideoPrism、T5-Gemma、VideoLLaMA2、MS-CLAP、Synchformer、Meta Audiobox Aesthetics、StereoCRW、Gemini 2.5 Pro(用于数据生成)。 📌 核心摘要 本文针对视频到音频(V2A)生成任务中存在的“目标纠缠”(语义、时序、美学、空间等目标相互冲突)和缺乏人类偏好对齐的问题,提出了PrismAudio框架。其核心方法是将单一的推理路径分解为四个专门的CoT模块(语义、时序、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。与现有方法相比,新在:1)首次在V2A中整合分解CoT与多维RL;2)提出Fast-GRPO算法,通过混合ODE-SDE采样大幅降低训练开销;3)构建了更严谨的AudioCanvas基准测试集(包含300类单事件和501个多事件场景)。实验结果表明,在VGGSound测试集上,PrismAudio在语义一致性(CLAP: 0.47 vs. 0.43)、时序同步性(DeSync: 0.41 vs. 0.55)和空间准确性(CRW: 7.72 vs. 13.47)等指标上均优于此前SOTA的ThinkSound,并在主观评测中获得最高MOS分数。其实际意义在于为V2A生成提供了一个可解释、可精细控制且对齐人类偏好的新范式。主要局限性在于训练过程依赖LLM生成的CoT数据和多阶段训练,计算成本较高。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 316 words

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #在线处理 #记忆机制 #任务规划 #基准测试 ✅ 7.5/10 | 前25% | #多模态模型 | #强化学习 | #在线处理 #记忆机制 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Lin Long (Zhejiang University, Bytedance Seed) 通讯作者:Yuan Lin (Bytedance Seed) 作者列表:Lin Long (Zhejiang University, Bytedance Seed)、Yichen He (Bytedance Seed)、Wentao Ye (Zhejiang University)、Yiyuan Pan (Robotics Institute, Carnegie Mellon University)、Yuan Lin (Bytedance Seed)、Hang Li (Bytedance Seed)、Junbo Zhao (Zhejiang University)、Wei Li (Bytedance Seed) 💡 毒舌点评 本文最大的亮点在于构建了一个“类人记忆”的闭环系统,并发布了极具针对性的评测集M3-Bench,直指当前智能体长期记忆能力评估的空白。但其记忆系统的动态更新与冲突解决机制(如权重投票)描述过于简略,实际大规模部署时的鲁棒性与效率存疑。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 290 words

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xueyao Zhang(香港中文大学(深圳)) 通讯作者:Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 作者列表: Xueyao Zhang(香港中文大学(深圳)) Chaoren Wang(香港中文大学(深圳)) Huan Liao(香港中文大学(深圳)) Ziniu Li(香港中文大学(深圳)) Yuancheng Wang(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Dongya Jia(ByteDance Seed) Yuanzhe Chen(ByteDance Seed) Xiulin Li(DataBaker Technology) Zhuo Chen(ByteDance Seed) Zhizheng Wu(香港中文大学(深圳)、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.) 💡 毒舌点评 这篇论文的“基建”价值很高,99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构(基于现有Qwen2.5-Omni的微调)创新稍显有限,更像是一个强大但“组装式”的解决方案,而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

2026-05-04 · 更新于 2026-06-15 · 3 min · 619 words

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者:Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表:Zihan Liu(北京航空航天大学,上海人工智能实验室),Zhikang Niu(上海交通大学,上海创新研究院),Qiuyang Xiao(上海交通大学),Zhisheng Zheng(上海交通大学),Ruoqi Yuan(北京航空航天大学),Yuhang Zang(上海人工智能实验室),Yuhang Cao(上海人工智能实验室),Xiaoyi Dong(上海人工智能实验室,香港中文大学),Jianze Liang(上海人工智能实验室),Xie Chen(上海交通大学,上海创新研究院),Leilei Sun(北京航空航天大学),Dahua Lin(香港中文大学,上海人工智能实验室),Jiaqi Wang(上海人工智能实验室,上海创新研究院) 💡 毒舌点评 本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题,证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”,从音高、响度等基础感知到时空推理,层层深入,确实能测出模型的真实短板。不过,论文本身止步于“诊断医生”,并未给出“治疗方案”,其核心价值依赖于未来模型能否利用这个基准取得进步,稍显被动。 📌 核心摘要 本文指出,现有的音频基准测试主要评估可通过文本描述传达的语义内容,无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此,论文提出了“音频4D智能”的概念,即结合时间(1D)和三维空间(3D)进行深度推理的能力。作者构建了STAR-Bench基准,包含两个层级:基础声学感知(对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估)和整体时空推理(包括连续过程与离散事件序列的时间推理,以及静态定位、多源关系和动态轨迹跟踪的空间推理)。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型(16个开源,3个闭源)的评测中,STAR-Bench展现出巨大挑战性,人类表现远高于所有模型。研究发现:闭源模型(如Gemini 2.5 Pro)在知识和推理上领先,但细粒度感知仍是其瓶颈;开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如,在仅使用音频文本描述答题时,MMAU和MMAR基准的准确率仅下降5.9%和9.0%,而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%,证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究,为未来模型改进指明了方向,如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 257 words

The Deleuzian Representation Hypothesis

📄 The Deleuzian Representation Hypothesis #模型可解释性 #概念提取 #对比学习 #自监督学习 #基准测试 🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Clément Cornet (Université Paris-Saclay, CEA, List) 通讯作者:Clément Cornet (论文未明确标注通讯作者,根据单位信息推断) 作者列表:Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List) 💡 毒舌点评 这篇论文将哲学思想(德勒兹的差异论)包装成了一个工程上简洁、实验上有效的概念提取新范式,确实超越了现有稀疏自编码器方法。其核心创新——聚类激活差异而非重建激活——思路清晰且有启发性。但最大的短板在于其评估高度依赖现有的有标签数据集(用于计算探针损失),对于真正无监督的、超越已知属性的“新概念”发现能力缺乏评估框架,且对语音/音频任务本身的方法论贡献有限。 🔗 开源详情 代码:提供。论文明确给出了代码仓库链接:https://github.com/ClementCornet/Deleuzian-Hypothesis。 模型权重:未提及。论文未公开其提取的概念向量词典或修改后的模型权重。 数据集:论文使用的数据集(ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet)均为公开数据集,并在附录B中给出了获取信息。 Demo:未提及。 复现材料:提供了详尽的复现信息,包括实现细节(附录A:所有基线方法的超参数设置)、实验设置细节(附录B:数据集描述、模型版本、数据划分)、以及方法核心代码。 引用的开源项目:论文引用了多个开源项目/模型作为基线或工具,包括:scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型(DeBERTa, BART, Pythia, AST)。 📌 核心摘要 问题:现有的稀疏自编码器(SAE)在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题,需要一种更简单、更直接的概念提取方法。 方法核心:提出“德勒兹表征假说”,将概念定义为激活空间中数据样本之间的“差异”。具体方法是:随机采样激活差异向量,然后使用带有偏度逆权重(以促进多样性)的K-means聚类算法对这些差异进行聚类,聚类中心即为概念向量。 与已有方法的对比:与主流SAE方法(如重建+稀疏)不同,本方法不进行激活重建,而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析,并在保持概念向量位于原始激活空间(便于无损引导)的同时,仅需一个可解释的超参数(概念数量k)。 主要实验结果:在涵盖视觉、语言、音频三个模态的五个模型和五个数据集上进行了广泛评估。结果显示,在探针损失(Probe Loss)指标上,该方法在13/20个任务中超越了所有SAE变体,其表现接近有监督的线性判别分析(LDA)基线。在跨运行一致性(MPPC)上也表现优异。关键实验数据对比如下表所示: 方法 CLIP (WikiArt Artist) DinoV2 (WikiArt Artist) DeBERTa (CoNLL-2003 NER) BART (CoNLL-2003 POS) AST (AudioSet) 平均排名 ↓ Deleuzian (Ours) 0.0119 0.0055 0.0665 0.2148 0.0164 1.65±0.85 Tk-SAE 0.0125 0.0096 0.0839 0.3478 0.0169 2.65±1.01 A-SAE 0.0130 0.0143 0.0775 0.3754 0.0169 3.20±1.72 LDA (监督基线) 0.0084 0.0044 0.0429 0.6326 0.0164 - 实际意义:提供了一种更简洁、可解释性更强的概念提取工具,可用于分析模型内部表征、进行概念引导(Steering)以可控地修改模型行为(如图像风格迁移、文本生成控制),为理解和调试大规模神经网络提供了新途径。 主要局限性:方法的评估依赖于带有语义标签的数据集,可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示,这一假设可能在某些模型中不成立。引导效果虽为定性展示,但系统性量化仍需更多研究。 🏗️ 模型架构 该方法并非一个传统的神经网络架构,而是一个用于从预训练模型激活中提取概念的流程(Pipeline)。其核心流程如下: ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 285 words