STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #音频问答 #模型评估 #基准测试 #多模态模型 #时空推理 🔥 8.5/10 | 前25% | #音频问答 | #基准测试 | #模型评估 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zihan Liu(北京航空航天大学、上海AI实验室) 通讯作者:Yuhang Zang(上海AI实验室)、Jiaqi Wang(上海AI实验室) 作者列表:Zihan Liu(北京航空航天大学、上海AI实验室), Zhikang Niu(上海交通大学、上海创新研究院), Qiuyang Xiao(上海交通大学), Zhisheng Zheng(上海交通大学), Ruoqi Yuan(北京航空航天大学), Yuhang Zang(上海AI实验室), Yuhang Cao(上海AI实验室), Xiaoyi Dong(上海AI实验室、香港中文大学), Jianze Liang(上海AI实验室), Xie Chen(上海交通大学、上海创新研究院), Leilei Sun(北京航空航天大学), Dahua Lin(上海AI实验室、香港中文大学), Jiaqi Wang(上海AI实验室、上海创新研究院) 💡 毒舌点评 这篇论文精准地抓住了当前音频大模型“懂语义、不懂物理”的痛点,用一套精心设计的“体检套餐”(STAR-Bench)让模型们在感知灵敏度和物理推理能力上露了怯。它最大的亮点是为社区立了一个更严格的标杆,指明了从“能说会道”到“耳听八方”的进阶之路。短板则在于它主要是一份“诊断书”而非“药方”,对于如何让模型真正“听懂”多普勒效应和倒水声的变化,给出的解决方案线索有限。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 329 words

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #可解释性 #自回归模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #音乐生成 | #可解释性 | #自回归模型 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Daniel Zhao (University of California, San Diego) 通讯作者:未明确说明(论文列出了所有作者邮箱,无指定通讯作者) 作者列表:Daniel Zhao (University of California, San Diego)、Daniel Beaglehole (University of California, San Diego)、Taylor Berg-Kirkpatrick (University of California, San Diego)、Julian McAuley (University of California, San Diego)、Zachary Novack (University of California, San Diego) 💡 毒舌点评 亮点:该工作将“可解释性”与“可控生成”两个热门方向巧妙结合,通过激活空间干预提供了无需重训模型的细粒度控制方案,实验设计全面,既有严谨的量化指标,也有主观听感测试。 短板:对节奏、和弦进行等强时序依赖概念的控制效果仍较弱,其核心控制单元(均值池化的探针)本质上牺牲了时序动态信息,这在未来可能是需要突破的瓶颈。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 318 words

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #视频摘要 #多模态模型 #自适应融合 #基准测试 #数据集 🔥 8.0/10 | 前25% | #视频摘要 | #多模态模型 | #自适应融合 #基准测试 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sumin Kim(首尔国立大学)[论文中注明与Hyemin Jeong, Mingu Kang并列第一作者] 通讯作者:Yoori Oh, Joonseok Lee(首尔国立大学) 作者列表:Sumin Kim(首尔国立大学)、Hyemin Jeong(首尔国立大学)、Mingu Kang(首尔国立大学)、Yejin Kim(首尔国立大学)、Yoori Oh(首尔国立大学)、Joonseok Lee(首尔国立大学) 💡 毒舌点评 亮点在于直击了现有视频摘要模型“静态融合”或“忽视音频/文本”的痛点,并用一个设计巧妙的“融合令牌”自适应地解决了这个问题,效果立竿见影,同时构建了首个大规模三模态数据集,功在千秋。短板是其核心框架(时间窗口注意力+跨模态注意力)并未跳出Transformer的范畴,创新更多是组合与适配,且“先打分再选段”的两阶段范式本身限制了端到端优化的可能,论文也在结论中坦承了这一局限。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/smkim37/TripleSumm。 模型权重:未在论文正文中明确提及是否公开预训练模型权重。 数据集:论文明确介绍了新数据集MoSu,并提供了数据获取信息(基于YouTube-8M,遵循特定筛选标准),论文中未明确给出直接下载链接,但提供了获取方法。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的超参数表(表I)、训练硬件、数据预处理流程(附录B.4)、评估协议(附录B.5)以及完整的消融研究,复现信息非常充分。 引用的开源项目:依赖的主要预训练模型和库包括:CLIP (视觉编码器), RoBERTa (文本编码器), Audio Spectrogram Transformer (AST, 音频编码器), Qwen2.5-VL-7B-Instruct (用于外部数据集生成文本描述), SwiGLU (FFN层), KTS (视频分割)。 📌 核心摘要 本文针对视频摘要任务中现有方法无法动态、自适应地融合视觉、文本和音频模态信息的问题,提出了TripleSumm模型。该模型通过多尺度时间块(MST)在每一模态内部进行时序建模,并通过跨模态融合块(CMF)利用一个“融合令牌”作为中立查询,在每一帧动态选择和加权最相关的模态信息。与以往方法相比,其核心创新在于实现了帧级别的、自适应的模态重要性评估。为解决多模态训练数据稀缺的问题,论文还引入了首个大规模三模态视频摘要数据集MoSu,包含52,678个视频及其观看回放统计作为ground-truth。主要实验结果显示,TripleSumm在MoSu、Mr. HiSum、SumMe和TVSum四个基准上均显著超越了现有方法,例如在MoSu上,其Kendall‘s τ(0.351)和Spearman‘s ρ(0.472)大幅领先于此前最优的CFSum(0.277, 0.374)。该工作的实际意义在于提供了一个高效且可扩展的多模态视频摘要解决方案,并为未来研究奠定了可靠的大规模数据基础。主要局限性在于其摘要生成仍遵循“帧评分-片段选择”的传统两阶段流程,而非直接生成摘要片段,且模型架构的创新性主要体现在模块组合而非底层机制。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 236 words

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #语音合成 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:未说明 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点:论文构建了迄今最全面的TTS系统公开评测框架,涵盖20个系统、4个测试域、14种语言,并发布了超过1万条主观评分数据,这本身就是一项耗时耗力的重要基础设施贡献。短板:TTSDS2指标本身创新有限,本质是多个特征分布的Wasserstein距离集成,且计算开销大(每分需约10分钟CPU时间),其最大优势——“跨域一致性”更像是一个精心设计和调优的工程成果,而非理论突破。 🔗 开源详情 代码:提供了流水线代码仓库链接:github.com/ttsds/pipeline。 模型权重:TTSDS2本身是一个评估算法,不涉及模型权重。论文中评估的20个TTS系统中,大部分开源代码和权重(见表6附录A)。 数据集:a) 主观评测数据集:hf.co/datasets/ttsds/listening_test;b) 自动化生成的评测数据集:可通过上述流水线重建,噪声参考集在 hf.co/datasets/ttsds/noise-reference。 Demo:提供了多语言基准排行榜网站 ttsdsbenchmark.com,可查看各系统分数。论文未提及交互式Demo。 复现材料:论文提供了详细的算法伪代码(算法1)、因子特征选择表(表1)、附录中的听测问卷细节(附录B)、以及所有实验数据的详细表格(附录C-H)。 论文中引用的开源项目:Whisper(语音识别与转录)、FastText(语言识别)、Pyannote(说话人分割)、Demucs(音乐分离)、VERSA(评估工具包)、以及所有被评测的20个TTS系统。 📌 核心摘要 解决的问题:现有TTS评估方法(主观MOS耗时费力且不可比,客观指标在域外泛化差且与主观分相关性弱)已无法满足评估高质量、接近真人水平的现代TTS系统的需求。 方法核心:提出TTSDS2,一个分布式的、因子化的客观评估指标。它从Generic、Speaker、Prosody、Intelligibility四个感知维度,提取多种特征,并计算合成语音特征分布与真实语音分布、噪声分布之间的2-Wasserstein距离,归一化后得到分数。 与已有方法相比新在哪里:a) 是首个在4个差异巨大的域(干净朗读、嘈杂、野外、儿童语音)和14种语言上,都能与主观评分(MOS/CMOS/SMOS)保持 Spearman 相关系数 ρ > 0.5 的单一指标。b) 发布了一个持续更新、可自动化复现的多语言TTS评测基准和流程。c) 收集并发布了大规模、跨系统的主观评测数据集(11,282条有效评分)。 主要实验结果: TTSDS2在所有4个域、3类主观评分(共12个评测点)上的平均Spearman相关系数为0.67,是唯一一个在所有评测点上ρ > 0.5的指标(表3)。 相比之下,其他15个指标中表现最好的Speaker Similarity类指标(RawNet3)平均相关系数为0.6,但存在域失效;MOS预测网络(SQUIM)平均为0.57。 对20个开源TTS系统的排名中,TTSDS2与MOS和CMOS在Top 4和Bottom 3系统上达成一致(图2)。 实际意义:为TTS社区提供了一个可靠、稳健、可自动化的跨语言、跨域评估标尺和持续更新的基准排行榜,有助于更公平、更高效地比较和推进TTS技术,尤其对评估那些声称达到“人机难辨”水平的系统至关重要。 主要局限性:a) 计算成本高(CPU-bound)。b) 仍无法完全替代主观评测(最高相关系数约0.8)。c) 无法检测TTS系统可能存在的语义错误(如转录不忠实),需辅以WER等指标。d) 评估粒度为句子级别,不支持长文本。 🏗️ 模型架构 TTSDS2并非一个生成模型,而是一个评估指标框架。其核心架构如下: ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 294 words

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #原型网络 #基准测试 🔥 9.0/10 | 前10% | #音频分类 | #自监督学习 | #原型网络 #基准测试 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Lukas Rauch(德国卡塞尔大学) 通讯作者:Lukas Rauch(lrauch@uni-kassel.de) 作者列表:Lukas Rauch(德国卡塞尔大学)、René Heinrich(德国卡塞尔大学、弗劳恩霍夫能源与环境技术研究所)、Houtan Ghaffari(根特大学)、Lukas Miklautz(马克斯·普朗克生物化学研究所,ML与系统生物学)、Ilyass Moummad(法国国家信息与自动化研究所,蒙彼利埃)、Bernhard Sick(德国卡塞尔大学)、Christoph Scholz(德国卡塞尔大学、弗劳恩霍夫能源与环境技术研究所) 💡 毒舌点评 亮点:论文直击音频SSL评估的一个“房间里的大象”——用线性探测评估多标签音频模型为何效果差,并给出了一个极其扎实、令人信服的答案,方法虽简单但“对症下药”。 短板:其核心贡献本质上是优化了探测器的“头部”设计,而非改进预训练的“主干”模型,因此对于追求模型架构创新的读者而言,冲击力可能稍弱;此外,实验虽全面,但主要局限于频谱图ViT,对原始波形模型的适用性未探讨。 🔗 开源详情 代码:提供了完整的开源代码仓库链接:https://github.com/lurauch/unmute-patch-tokens/。 模型权重:论文未提供其提出的探测器(protobin)的预训练权重,也未提及提供预训练SSL编码器的权重。实验评估的是公开已有的SSL模型。 数据集:提供了部分新整理或未广泛使用的数据集链接:https://huggingface.co/datasets/lrauch/desed、https://huggingface.co/datasets/lrauch/spass、https://huggingface.co/datasets/lrauch/urban-sed。 Demo:论文中未提及在线演示。 复现材料:提供了极其充分的复现材料,包括:a) 详细的超参数搜索范围与策略(附录D.4);b) 所有固定超参数的列表(表10);c) 完整的计算资源估算(附录C);d) 探测方法实现的详细描述(表9,附录D.3);e) 数据集划分与准备细节(附录D.1, D.2)。 引用的开源项目:论文依赖于多个已公开的SSL模型代码和权重(如EAT, BEATs, ASiT, SSLAM等),并在实验中直接使用了它们。 📌 核心摘要 要解决什么问题:在音频自监督学习(SSL)中,使用冻结模型进行轻量级探测(probe)以评估模型质量是计算机视觉的标准做法,但在音频领域(如AudioSet基准),人们仍倾向于使用成本高昂的微调(fine-tuning)来取得最优性能。论文旨在探究并解决为何标准探测方法(特别是基于全局池化的线性探测)无法准确评估音频SSL模型的真实潜力。 方法核心是什么:作者指出问题根源在于“池化瓶颈”:音频预训练(如掩码预测)在token级别学习了分散、局部的信息,但标准的单向量探测(如[cls]-token或注意力池化)在聚合时丢失了这些关键信息,尤其在多标签音频场景中。为此,他们提出了二值化原型探测器(Binarized Prototypical Probes):为每个类别学习一组可学习的原型(prototype),将它们与输入的全部token进行余弦相似度匹配并取最大值,从而实现基于类别的、多向量的信息聚合。 与已有方法相比新在哪里:a) 它系统性地论证并量化了池化方法对音频SSL评估的关键影响,而非常规地将其视为固定协议。b) 提出的二值化原型探测器在性能上显著优于线性探测、注意力池化等所有单向量方法。该方法在原型设计上做了简化(类无关、无显式正交损失)并通过二值化实现32倍压缩,兼具高效与高性能。 主要实验结果如何:在涵盖5个通用多标签、7个少样本生物声学、2个多类别控制任务的13个数据集和6个音频SSL编码器(及其监督微调变体)的广泛基准测试中,二值化原型探测器(protobin)在几乎所有设置下均达到最佳或次佳性能。例如,在as20k数据集上,protobin比标准线性探测平均提升14.41% 的mAP,缩小了与微调性能差距的63%。它彻底改变了模型间的排名:线性探测下表现优秀的ASiT模型在protobin评估下排名垫底,而线性探测下中游的SSLAM模型则跃升至顶尖。 实际意义是什么:该研究将探测确立为一种在音频SSL中具有竞争力、高效且可信的评估范式,挑战了对微调的过度依赖。它为未来研究提供了更可靠的评估工具,并揭示了模型嵌入的真正质量,对设计更好的预训练目标具有指导意义。 主要局限性是什么:a) 论文主要评估了基于频谱图的ViT架构,未涉及原始波形模型。b) 探测过程仍依赖于对最后隐藏层的缓存,没有探索多层特征聚合。c) 其性能上限仍与微调存在差距,未来可通过集成数据增强等进一步提升。 关键实验结果(表2节选 - as20k数据集 mAP%): ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 323 words

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #多模态模型 #基准测试 #大语言模型 ✅ 7.0/10 | 前25% | #多模态模型 | #基准测试 | #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed (MBZUAI) 通讯作者:未说明 作者列表:Hanoona Rasheed (MBZUAI), Abdelrahman Shaker (MBZUAI), Anqi Tang (MBZUAI), Muhammad Maaz (MBZUAI), Ming-Hsuan Yang (University of California Merced, Google Research), Salman Khan (MBZUAI, Australian National University), Fahad Shahbaz Khan (MBZUAI, Linköping University) 💡 毒舌点评 这篇论文精准地定义了视频理解领域一个“棘手但重要”的评测缺口——多步数学推理,并构建了迄今最贴合该场景的基准,其细粒度的步骤标注和错误分类为模型诊断提供了手术刀级别的工具。然而,其本质仍是一篇“数据集论文”,在模型创新和算法突破上着墨为零,且高度依赖LLM-as-a-Judge的评估方式也可能引入新的评估偏差。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 300 words

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #语音对话系统 #基准测试 #隐私保护 #多用户 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #隐私保护 #多用户 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),深圳湾区研究院) 通讯作者:未明确说明(根据署名惯例,最后一位作者Zhizheng Wu可能为通讯作者,但论文未明确标注)。 作者列表: Yuxiang Wang (香港中文大学(深圳),深圳湾区研究院) Hongyu Liu (香港中文大学(深圳)) Dekun Chen (香港中文大学(深圳)) Xueyao Zhang (香港中文大学(深圳)) Zhizheng Wu (香港中文大学(深圳),深圳湾区研究院,澳门城市大学,Amphion Technology Co., Ltd.) 💡 毒舌点评 亮点:论文像一位敏锐的侦探,为“语音大模型在共享环境中如何保守秘密”这一被忽视的关键问题立了案、建了卷宗(三层级基准),并通过大规模“审讯”(评估)揪出了当前模型“嘴不严”(交互隐私能力弱)的通病,为领域敲响了警钟。 短板:然而,论文的“破案”能力(分析)远强于“结案”能力(解决方案)。其提出的微调路径更像是一个证明方向可行的“示例”,而非一个完整、鲁棒的解决方案。同时,整个“案发现场”(基准)完全由合成语音构成,尽管做了验证,但“真实犯罪现场”(真实隐私泄露场景)的复杂性可能被低估。 🔗 开源详情 代码:论文中未提及具体代码仓库链接,但承诺将开源基准数据集、训练集和微调模型。 模型权重:承诺开源基于Kimi-Audio微调的模型权重(“Ours: Kimi-Audio-sft”)。 数据集:承诺公开VoxPrivacy基准数据集(32.86小时)、Real-VoxPrivacy验证子集(586 utterances)以及用于训练的4000+小时数据集。具体获取方式未在提供的内容中说明。 Demo:论文开头提供了一个Demo页面链接:https://myflashbarry.github.io/VoxPrivacy.github.io/。 复现材料:附录提供了详尽的材料,包括:所有提示模板(生成、润色、评估)、评估标准详细规则(A/B/C分类)、训练集统计数据与示例、对抗攻击详情、说话者验证能力分析等。 论文中引用的开源项目:CosyVoice2(TTS), Whisper-large-v3(ASR), Deepseek, Gemini, ChatGPT(用于数据生成), 以及多个用于构建训练集的公开语音/音频数据集。 📌 核心摘要 问题:随着语音语言模型(SLS)进入智能家居等多用户共享环境,模型需要区分不同说话者以管理信息流。一个关键的未被评估的能力是“交互隐私”——即防止���个用户的私密信息被泄露给另一个用户。现有基准要么只评估对话能力,要么只关注全局敏感信息,忽略了依赖上下文和说话者身份的隐私。 方法核心:提出VoxPrivacy,首个系统评估SLS交互隐私的基准。其核心是设计了三层级任务结构:Tier 1(遵循“别告诉别人”的直接命令)、Tier 2(使用声纹作为密钥,只向主人披露)、Tier 3(在无明确指令下,自主推断信息是否私密并加以保护)。基准包含7107个样本,32.86小时英中双语合成音频,并构建了一个小型真人录音子集(Real-VoxPrivacy)用于验证。 创新性:与已有工作相比,VoxPrivacy首次将交互隐私和说话者感知的响应生成作为独立的评估维度;其三层任务设计覆盖了从简单指令到复杂常识推理的能力谱;基准构建结合了多LLM生成、自动清洗、人工验证和可控TTS合成,保证了质量和多样性。 主要实验结果:对9个SLS的评估显示,交互隐私是当前模型的重大缺陷。大多数开源模型在Tier 2和Tier 3上的准确率接近50%(随机猜测)。强闭源模型(如Gemini-2.5-pro)表现更好,但在更难的Tier 3(主动推理)上也出现明显性能下降。关键数据见下表。在Real-VoxPrivacy上的评估证实了合成数据上的结论。 表2: Tier 1(直接命令)部分模型性能(Accuracy (%)) ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 361 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #语音对话系统 #基准测试 #多通道 #语音大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #多通道 #语音大模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta,标记为联合第一作者) 通讯作者:未说明(论文未明确指定通讯作者,但提供了邮箱zhaojiang@meta.com, sunkaicn@meta.com, yongxu@meta.com, lunadong@meta.com) 作者列表:Zhaojiang Lin(Meta)、Yong Xu(Meta,联合第一作者)、Kai Sun(Meta,联合第一作者)、Jing Zheng(Meta)、Yin Huang(Meta)、Surya Teja Appini(Meta)、Krish Narang(Meta)、Renjie Tao(Meta)、Ishan Kapil Jain(Meta)、Siddhant Arora(Carnegie Mellon University,工作于Meta)、Ruizhi Li(Meta)、Yiteng Huang(Meta)、Kaushik Patnaik(Meta)、Wenfang Xu(Meta)、Suwon Shon(Meta)、Yue Liu(Meta)、Ahmed A Aly(Meta)、Anuj Kumar(Meta)、Florian Metze(Meta)、Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于它精准地定义了可穿戴语音助手独有的“坑”(自我中心音频、多通道、运动噪声、旁听对话),并用一个设计精良、场景丰富的测试集(WearVox)把这些坑量化了,直接戳穿了当前所谓“先进”语音大模型在真实世界中的脆弱性。短板则是案例研究部分提出的多通道模型(MC WearLlama)虽然验证了方向,但更像是一个概念验证(PoC)而非一套完整的解决方案,模型本身未开源,且多通道处理方式(仅拼接两个通道)相对简单,离真正的端到端多模态融合还有距离。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 422 words

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #基准测试 #多模态模型 #音视频 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jack Hong(小红书) 通讯作者:Shilin Yan(小红书) 作者列表:Jack Hong(小红书)、Shilin Yan†(小红书)、Jiayin Cai(小红书)、Xiaolong Jiang(小红书)、Yao Hu(小红书)、Weidi Xie‡(上海交通大学) 💡 毒舌点评 这篇论文的价值在于它像一盆冷水,明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远(最佳开源模型约25%,最强商用模型仅65.1%),而音频模态是普遍短板。不过,其评估形式局限于多选题,可能无法完全评估模型生成式理解和复杂推理的真实水平。 🔗 开源详情 代码:论文提供了项目主页链接(https://jaaackhongggg.github.io/WorldSense),但未明确提及评估代码或数据处理脚本的开源仓库。 模型权重:未提及。本文为评估基准,未提出新模型。 数据集:已公开。WorldSense数据集可通过项目主页获取,采用CC BY-NC-SA 4.0许可证。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的评估提示词模板(附录A.4)、标注协议描述(3.3节和附录A.2)以及模型评估设置说明(4.1节和附录A.3),为复现评估结果提供了充分信息。 论文中引用的开源项目:主要引用了作为数据源的FineVideo和MusicAVQA数据集,以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。 论文中未提及开源计划:评估代码、质量控制自动化脚本。 📌 核心摘要 问题:现有针对多模态大语言模型的评估基准大多忽略音频模态,或仅处理弱耦合的音视频信息,无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。 方法核心:提出了WorldSense,首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频,设计了3,172个多选问答对,覆盖8大领域、67个子类和26种任务。 新在哪里:与已有基准相比,WorldSense的创新在于:(i) 强调音视频模态的强耦合性,回答问题必须同时依赖两者;(ii) 覆盖真实世界多样化场景和音频类型(语音、环境声、音乐);(iii) 采用高质量人工标注和严格的多重质量控制流程。 主要实验结果:实验评估了多种主流多模态模型。结果显示,最佳开源多模态视频模型准确率仅为54.0%(Qwen3-Omni),而多数开源音视频模型表现接近随机猜测(约25%)。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明,加入原始音频相比仅用字幕能带来更大性能提升。 实际意义:该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台,并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。 主要局限性:基准采用多选题形式,在一定程度上限制了对模型生成式能力和开放性推理的评估;此外,尽管覆盖广泛,但视频和问题的分布可能仍无法完全代表所有真实世界场景。 🏗️ 模型架构 本文的核心贡献是提出了一个评估基准(Benchmark),而非一个新的模型。因此,其“架构”指的是基准的设计框架。该框架主要由两部分构成:数据构建流水线和评估范式。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 353 words

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #跨模态 #音频问答 #模型评估 🔥 9.0/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #音频问答 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xingrui Wang (1, 2) - 1. Advanced Micro Devices (AMD), 2. Johns Hopkins University 通讯作者:Jiang Liu (1) - Advanced Micro Devices (AMD) 作者列表:Xingrui Wang (AMD, Johns Hopkins University)、Jiang Liu (AMD,通讯作者)、Chao Huang (AMD, University of Rochester)、Xiaodong Yu (AMD)、Ze Wang (AMD)、Ximeng Sun (AMD)、Jialian Wu (AMD)、Alan Yuille (Johns Hopkins University)、Emad Barsoum (AMD)、Zicheng Liu (AMD) 💡 毒舌点评 亮点: 该论文精准打击了当前多模态大模型“看似通用,实则偏科”的痛点,其系统性地通过“模态置换”来测试模型是否真正在理解语义而非记忆模态关联,这种诊断思路比单纯刷分的基准更具洞察力。 短板: 论文像一份极其详尽的“体检报告”,清晰指出了模型的“病灶”(如音频理解弱、方向不平衡),但并未提供任何“治疗方案”(即如何构建更一致的模型),其价值完全依赖于后续研究者如何利用这份诊断报告。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 312 words