The Deepfakes We Missed: We Built Detectors for a Threat That Didn't Arrive

📄 The Deepfakes We Missed: We Built Detectors for a Threat That Didn’t Arrive #深度伪造检测 #音频深度伪造检测 #基准测试 #评测协议 #内容审核 #立场论文 #文献计量 ✅ 6.5/10 | 前50% | #深度伪造检测 | #基准测试 | #音频深度伪造检测 #评测协议 | arxiv 学术质量 7.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Shaina Raza(Vector Institute for Artificial Intelligence, Toronto, Canada; 多伦多城市大学) 通讯作者:论文未明确标注通讯作者。 作者列表:Shaina Raza(Vector Institute for Artificial Intelligence, Toronto, Canada;多伦多城市大学) 💡 毒舌点评 这篇立场论文以文献计量为刃,精准解剖了深度伪造检测领域近十年的“错位”症候群。其核心价值不在于技术突破,而在于以无可辩驳的实证数据揭示了研究议程与社会危害之间的巨大鸿沟,并尖锐地指出这种错位已成为部署有效防御的主要瓶颈。然而,其“威胁未以预测形式到来”的核心论断在力度上稍显不足,且对“威慑论”的反驳主要依赖间接证据。论文的警示意义远大于其提供的技术解决方案。 📌 核心摘要 问题:本文指出,自2017年以来,深度伪造检测研究一直围绕一个继承自2017-2019年、以“公众人物换脸/说话头视频”(T1)为主的威胁模型,但该威胁模型预测的大规模政治灾难并未在2024年全球选举周期中如期出现。与此同时,非自愿亲密图像(NCII)、语音克隆诈骗等实际危害已大规模爆发,研究重心与实际危害分布存在严重错位。 方法核心:本文是一篇立场论文,其核心方法是一个四阶段分析框架:(1) 威胁模型考古,追溯当前研究主流威胁模型的起源;(2) 实证错位分析,通过文献计量(438篇论文)和危害数据综合(来自IC3, IWF等),量化研究努力与实际危害的分布差异;(3) 机制诊断,分析基准继承、数据伦理不对称、显著性驱动关注等导致错位持续的原因;(4) 提出三个面向被忽视危害类别的具体技术研究议程。 创新点:提出了清晰的五类威胁分类法(T1-T5),并通过大规模实证分析系统性地量化了领域内资源与社会危害之间的错位。超越现象描述,深入诊断了维持这种错位的结构性原因,并勾勒了针对现实危害的研究路线图。 主要结果: 研究分布:在389篇检测方法论文中,71.0%(276篇)针对T1(公众人物视频),28.5%(111篇)针对T3(音频),而T2(1篇)、T4(0篇)、T5(1篇)几乎为零。 危害趋势:IWF评估的AI生成CSAM视频在2024-2025年间增长260倍(从13个到3,443个);IC3报告的合成媒体相关投诉呈数量级增长。相比之下,2024年全球选举周期中未有记录证明合成政治视频根本性地改变了选举结果,相关事件多由人类而非ML系统识别。 错位加剧:在对数刻度下,T1论文数量呈线性增长,而危害指标呈指数增长,差距在持续扩大。 实际意义:论文明确呼吁ML社区、会议、资助机构和平台将研究议程重新平衡,投向危害真实增长的领域(如实时语音克隆检测、隐私保护的NCII检测、消息层防御),并提出了具体的行动建议。 主要局限性:论文明确承认其文献语料库可能低估了安全、HCI等领域的工作;危害数据依赖公开报告,存在漏报偏差;对论文和基准的分类涉及主观判断;且无法通过反事实分析证明现有研究未对政治deepfake产生威慑。 🔗 开源详情 代码:论文提及在补充材料中包含了用于构建438篇论文语料库的收集脚本和关键词列表(见附录A),但未提供具体的代码仓库链接(如GitHub)。这与“has_code: 是”的机器摘要判断一致。 模型权重:论文未提出新模型,故无模型权重。 数据集:论文引用了多个用于研究和基准测试的公开数据集(如FaceForensics++, Celeb-DF, DFDC等,见附录C Table 2),但并未提供新的数据集。 Demo:未提及。 复现材料:论文详细描述了其文献收集、分类的方法论(附录A, B),并表示在补充材料中包含了收集脚本和关键词规则。这为复现其核心文献分析提供了基础。危害数据综合部分属于定性研究,复现性较低。 论文中引用的开源项目:论文作为一篇立场论文,主要引用学术研究和数据集作为论据。文中提到的实体如StopNCII.org、IWF、IC3是报告和处理危害的组织或数据库,而非供研究者使用的开源软件项目。 🏗️ 方法概述和架构 本文是一篇立场与观点论文(Position Paper),其核心方法并非提出一个新的检测模型,而是通过一套系统性的分析框架来论证其核心主张。该框架旨在诊断研究与危害的错位并提出新的研究方向,具体流程与架构如下: ...

2026-05-13 · 更新于 2026-06-15 · 2 min · 324 words

Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement

📄 Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement #语音增强 #模型评估 #语音识别 #基准测试 ✅ 6.6/10 | 前50% | #语音增强 | #模型评估 | #语音识别 #基准测试 | arxiv 学术质量 6.2/8 | 影响力 0.7/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Danilo de Oliveira (University of Hamburg, Signal Processing Group) 通讯作者:未明确说明(论文中未提供明确的通讯作者标识) 作者列表:Danilo de Oliveira (University of Hamburg, Signal Processing Group)、Tal Peer (University of Hamburg, Signal Processing Group)、Timo Gerkmann (University of Hamburg, Signal Processing Group) 💡 毒舌点评 本文像一面精准的棱镜,折射出使用现代ASR评估语音增强时存在的“评估偏移”现象:强大的ASR模型(特别是基于大规模数据训练的Transducer和Attention模型)因噪声鲁棒性和语言先验,其WER指标已无法敏感地区分不同SE系统在声学伪影上的细微差异,甚至可能误导系统排名。然而,这篇系统性的实证研究更像是一个严谨的“症状报告”,它清晰地诊断了问题(WER作为指标的失效、流水线敏感性),并量化了症状(与人类排名的相关性、排名差异),但并未开出有效的“处方”(如何修正指标或提出新范式)。其贡献在于警示和基础性分析,而非解决方案的革新。 ...

2026-05-13 · 更新于 2026-06-15 · 4 min · 644 words

Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model

📄 Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model #语音理解 #渐进式课程学习 #基准测试 #数据集 #多语言 前25% | #语音理解 | #渐进式课程学习 | #基准测试 #数据集 | arxiv 学术质量 6.0/8 | 影响力 1.6/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Guojian Li(论文未明确标注,按列表顺序推断) 通讯作者:未说明(论文仅标注“*Corresponding authors”,但未指明具体作者) 作者列表:Guojian Li, Zhixian Zhao, Zhennan Lin, Jingbin Hu, Qirui Zhan, Yuang Cao, Pengyuan Xie, Chuan Xie, Jie Liu, Qiang Zhang, Zhonghua Fu, Lei Xie。 所有作者所属机构:未在论文中提供。 💡 毒舌点评 这篇工作的核心价值在于其“三位一体”的系统性贡献——试图为“细粒度多维语音理解”这一新兴方向同时定义问题、提供评测工具和提出模型方案���其构建的FMSU-Bench基准,特别是引入“语义陷阱”干扰项,对评估模型是否真正“听声”而非“读文”具有重要启发意义。然而,整套方案的基石——数据生产流水线,严重依赖黑箱商业模型(Gemini 2.5 Pro)进行核心标注,这使得后续所有工作的数据源都建立在一个不可控、可能引入系统性偏差且难以复现的基础上。本质上,这更像是一次利用强大工具进行的数据工程和系统集成,而非提出新的感知原理。此外,模型在部分关键微细声学任务(如音高)上性能的显著下降,暴露了当前方法在触及问题本质上的不足。 ...

2026-05-13 · 更新于 2026-06-15 · 5 min · 943 words

Evaluating the Expressive Appropriateness of Speech in Rich Contexts

📄 Evaluating the Expressive Appropriateness of Speech in Rich Contexts #语音质量评估 #语音大模型 #强化学习 #知识蒸馏 #基准测试 ✅ 7.2/10 | 前25% | #语音质量评估 | #强化学习 | #语音大模型 #知识蒸馏 | arxiv 学术质量 7.2/8 | 影响力 1.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tianrui Wang(天津大学,南洋理工大学联合培养) 通讯作者:Longbiao Wang(天津大学)和 Xiaobao Wang(天津大学) 作者列表:Tianrui Wang (天津大学, NTU), Ziyang Ma (上海交大, NTU), Yizhou Peng (NTU), Haoyu Wang (天津大学), Zhikang Niu (上海交大), Zikang Huang (天津大学), Yihao Wu (NTU), Yi-Wen Chao (NTU), Yu Jiang (天津大学), Yuheng Lu (天津大学), Guanrou Yang (上海交大), Xuanchen Li (天津大学), Hexin Liu (NTU), Chunyu Qiang (天津大学, 快手), Cheng Gong (TeleAI, 中国电信), Yifan Yang (上海交大), Tianchi Liu (新加坡国立大学), Junyu Wang (天津大学), Nana Hou (NTU), Meng Ge (天津大学), Fuming You (腾讯), Wei Yang (腾讯), Zhongqian Sun (腾讯), Haifeng Hu (腾讯), Xiaobao Wang (天津大学), Eng Siong Chng (NTU), Xie Chen (上海交大), Longbiao Wang (天津大学), Jianwu Dang (天津大学) 💡 毒舌点评 本文最扎实的贡献在于明确提出了“语境丰富性下的表达适当性”这一被忽视的评估任务,并构建了首个高质量中文有声书数据集。然而,其方法论的核心创新——规划器-判断器解耦、注意力偏置等——更多是对现有技术的精巧组合与工程优化,而非提出全新的基础模型或训练范式。此外,评估仅限于中文,其普适性有待验证。 ...

2026-05-12 · 更新于 2026-06-15 · 3 min · 633 words

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Qijie You(北京科技大学 University of Science and Technology Beijing) 通讯作者:Wentao Zhang(北京大学 Peking University、中关村学院 Zhongguancun Academy) 作者列表:Qijie You(北京科技大学)、Hao Liang(北京大学、中关村学院,同等贡献)、Mingrui Chen(中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences)、Bohan Zeng(北京大学)、Meiyi Qiang(北京大学)、Zhenhao Wong(北京大学)、Wentao Zhang(北京大学、中关村学院,项目负责人,通讯作者) 💡 毒舌点评 这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段,完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图;其提出的“硬双模态约束”过滤机制是一个非常聪明的设计,确保了跨模态查询不是简单的拼接。然而,其短板也明显:整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上,这虽保证了规模,却也引入了模型特有的偏见,且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑,更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

2026-05-12 · 更新于 2026-06-15 · 4 min · 708 words

Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

📄 Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search #基准测试 #模型评估 #跨模态 #音频问答 #多模态代理 ✅ 6.0/10 | 前25% | #基准测试 | #模型评估 | #跨模态 #音频问答 | arxiv 学术质量 6.0/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tao Yu (中国科学院自动化研究所 CASIA,中国科学院大学 UCAS,北京人工智能研究院 BAAI) 通讯作者:Yan Huang (中国科学院自动化研究所 CASIA),Liang Wang (中国科学院自动化研究所 CASIA) 作者列表:Tao Yu (CASIA, UCAS, BAAI),Yiming Ding (CASIA),Shenghua Chai (CASIA),Minghui Zhang (CASIA),Zhongtian Luo (CASIA),Xinming Wang (CASIA, UCAS),Xinlong Chen (CASIA, UCAS),Zhaolu Kang (Peking University),Junhao Gong (Peking University),Yuxuan Zhou (Tsinghua University),Haopeng Jin (CASIA),Zhiqing Cui (CASIA),Jiabing Yang (CASIA, UCAS),YiFan Zhang (CASIA, UCAS),Hongzhu Yi (UCAS),Zheqi He (BAAI),Xi Yang (BAAI),Yan Huang (CASIA, UCAS),Liang Wang (CASIA, UCAS) 💡 毒舌点评 亮点:论文精准地识别了当前全模态评测中“被动接收多模态信息”范式的局限,定义了“音频驱动的主动全模态深度搜索”这一重要且现实的新任务,并系统性地构建了首个基准。这对于推动多模态智能体从“理解”走向“行动”具有明确的指导价值。短板:作为基准,其影响力受限于相对有限的规模(640个样本) 和对特定搜索工具、流程及提示策略的强依赖。论文声称解决了“主动搜索”的评测空白,但其核心贡献更接近于一个高度结构化的、依赖工具的评估流水线,而非对模型内在推理能力的无偏测量。实验部分缺乏与现有相关基准(如BrowseComp-VL, VideoBrowserComp)在类似模型上的直接横向对比,削弱了其挑战性定位的独特性。 ...

2026-05-12 · 更新于 2026-06-15 · 3 min · 438 words

Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization

📄 Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization #基准测试 #多模态模型 #强化学习 #模型评估 #强化学习与奖励设计 ✅ 6.5/10 | 前25% | #基准测试 | #强化学习 | #多模态模型 #模型评估 | arxiv 学术质量 6.5/8 | 影响力 0.75/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Yeongtak Oh(首尔大学电气与计算机工程系) 通讯作者:Sungroh Yoon(首尔大学电气与计算机工程系,首尔大学人工智能跨学科项目) 作者列表:Yeongtak Oh(首尔大学电气与计算机工程系)、Dongwook Lee(首尔大学人工智能跨学科项目)、Sangkwon Park(首尔大学电气与计算机工程系)、Heeseung Kim(首尔市立大学人工智能系)、Sungroh Yoon(首尔大学电气与计算机工程系,首尔大学人工智能跨学科项目) 💡 毒舌点评 论文作为评测工作,其核心贡献在于定义了“全模态个性化”这一更现实的统一任务,并通过引入“缺席人格”场景和校准精度指标,系统性地揭示了现有评估框架的盲点(仅关注Answerable场景)和模型的关键失败模式(幻觉与过度回避)。然而,其本质仍是“定义问题与度量”而非“提出解决方案”。作为评测论文,其价值高度依赖于所提出基准的严谨性与诊断能力。论文在形式化(PMG)和指标设计(Cal)上展现了洞察力,但合成数据与真实评估间的域偏移、对LLM-as-a-judge的依赖、以及RLVR实验中奖励设计导致的模型“过度保守”副作用,均是其作为权威评测基准需要面对且未能完全解决的挑战。 📌 核心摘要 问题:当前多模态个性化研究主要局限于视觉-语言领域,缺乏统一覆盖文本、图像和音频的全模态基准。更关键的是,现有评估仅关注检索到正确人格(Answerable)的理想情况,忽略了真实世界中检索上下文可能完全不包含目标人格(Absent-Persona)的常见场景,导致评估存在盲点,无法诊断模型的幻觉和过度回避行为。 方法核心:提出“Omni-Persona”,第一个全面的全模态个性化评测基准。其核心是“Personae Modality Graph”形式化框架,将个性化任务定义为在图上进行的跨模态路由问题(感知匹配+信息检索)。基准明确包含约50%的“缺席人格”查询作为核心评估维度,并提出“校准精度”作为主指标,同时衡量模型在Answerable场景下的正确回答(Ans)和在Absent-Persona场景下的正确回避(Unans)。 新意:与已有基准(如CoViP)相比,Omni-Persona新增了:(1) 将音频作为与图像、文本同等重要的人格模态;(2) 将“缺席人格”查询作为一等评估对象,而非忽略或弱化;(3) 跨模态任务设计(如T2Any),以衡量模态间的语义对齐与偏见;(4) 统一的校准评估框架(Cal),联合评估正确回答与正确回避。 主要实验结果:论文在多个闭源(Gemini系列)和开源模型(Qwen2.5-Omni, Gemma4系列)上进行了系统评测。关键发现包括:(1) 开源模型普遍存在“音频接地”弱于“视觉接地”的模态偏见;(2) 仅凭Answerable召回率或模型参数规模不足以评估个性化能力,校准精度是必要维度;(3) 监督微调(SFT)的性能受限于高质量标注数据的构建规模,扩大数据不一定带来提升;而基于可验证奖励的强化学习(RLVR)训练能更稳定地提升校准精度,但可能导致模型过度保守(False Abstention增加)。例如,Gemma4-E4B模型在经过RLVR训练后,校准精度从52.6%提升至62.0%(+9.4%)。 实际意义:为全模态个性化研究提供了首个系统性的诊断框架,揭示了当前模型(尤其是开源模型)在音频感知和校准能力上的具体短板,明确了强化学习训练相较于监督微调在提升校准能力上的优势与权衡(过度保守),为未来模型对齐和奖励设计提供了明确的研究方向。 主要局限性:评测使用合成语音和文本,评估依赖真实图像,可能引入训练-评估域偏移;评估高度依赖LLM-as-a-judge,其可靠性虽在附录讨论但主文未充分论证;RLVR训练中使用的二值奖励设计导致了模型过度保守的副作用,更精细的奖励设计留作未来工作;基准不评估预检索过程的质量。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接 数据集:论文中未提及数据集公开链接 Demo:论文中未提及Demo链接 复现材料:论文中未提及复现所需的检查点、日志或预训练权重。但论文在附录D中详细描述了SFT和RLVR的实现细节,包括超参数、数据构成、奖励函数设计等,这些信息对于复现研究有指导意义。 论文中引用的开源项目: ms-swift: 论文中用于进行监督微调。链接:https://github.com/modelscope/ms-swift TRL (Transformer Reinforcement Learning): 论文中用于进行强化学习微调。链接:https://github.com/huggingface/trl LoRA (Low-Rank Adaptation): 论文中作为参数高效微调方法。链接:https://github.com/microsoft/LoRA Chatterbox: 论文中用于生成高保真合成音频。链接:https://github.com/resemble-ai/chatterbox wav2vec 2.0: 论文中用于自动性别检测以构建音频干扰项。链接:https://github.com/facebookresearch/wav2vec2 🏗️ 方法概述和架构 本文提出的方法主要是一个系统性的评测框架与分析流程,而非单一的神经网络模型架构。其核心是Omni-Persona基准构建与诊断性实验分析,旨在严格评估和诊断全模态(文本、图像、音频)个性化能力。 ...

2026-05-12 · 更新于 2026-06-15 · 3 min · 558 words

RADAR Challenge 2026: Robust Audio Deepfake Recognition under Media Transformations

📄 RADAR Challenge 2026: Robust Audio Deepfake Recognition under Media Transformations #音频深度伪造检测 #基准测试 #多语言 #鲁棒性 ✅ 6.0/10 | 前50% | #音频深度伪造检测 | #基准测试 | #多语言 #鲁棒性 | arxiv 学术质量 6.0/8 | 影响力 0.7/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Hieu-Thi Luong(Fortemedia, Singapore) 通讯作者:Hieu-Thi Luong(radar-challenge@hieuthi.com) 作者列表:Hieu-Thi Luong(Fortemedia, Singapore)、Xuechen Liu(Xi’an Jiaotong-Liverpool University, China)、Ivan Kukanov(KLASS Engineering & Solutions, Singapore)、Zheng Xin Chai(KLASS Engineering & Solutions, Singapore)、Kong Aik Lee(The Hong Kong Polytechnic University, Hong Kong SAR, China) 💡 毒舌点评 亮点:论文系统性地定义了一个面向真实媒体传播管道的、多语言音频深度伪造检测评测挑战,并发布了大规模的数据集。这为评估模型在复杂现实条件下的鲁棒性提供了一个有价值的、更贴近实际的基准。短板:作为一篇典型的挑战赛总结报告,其核心贡献在于“搭建评测舞台”而非“提出新方法”,因此在算法创新性、深度理论分析和对获胜方法的深入探讨上存在固有局限。文章更像一份详实的“技术文档”和“结果公告”,而非一篇探索性的研究论文。 ...

2026-05-12 · 更新于 2026-06-15 · 3 min · 429 words

Responsible Benchmarking of Fairness for Automatic Speech Recognition

📄 Responsible Benchmarking of Fairness for Automatic Speech Recognition #语音识别 #基准测试 #公平性 #模型评估 #方法论 📝 5.0/10 | 前50% | #语音识别 | #基准测试 | #公平性 #模型评估 | arxiv 学术质量 5.0/8 | 影响力 0.6/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Felix Herron (Université Paris Dauphine-PSL, MILES Team, LAMSADE;Université Grenoble Alpes, GETALP Team, LIG) 通讯作者:未说明 作者列表:Felix Herron (Université Paris Dauphine-PSL, Université Grenoble Alpes)、Ange Richard (Université Grenoble Alpes, PACTE)、François Portet (Université Grenoble Alpes)、Alexandre Allauzen (Université Paris Dauphine-PSL)、Solange Rossato (Université Grenoble Alpes, PACTE)。注:原文脚注指出 Ange Richard, François Portet, Solange Rossato 对框架中“说话人组的交叉性”和“多变量说话人组”的形成有贡献。 💡 毒舌点评 本文旨在为ASR公平性评估提供一套“负责任”的方法论最佳实践。其核心价值在于系统性地整合了机器学习公平性、社会科学和语音科学领域的建议,并针对ASR场景(如说话人而非话语作为统计单元)进行了适配。案例研究部分通过对比分析(如忽略与控制交叉变量),直观地展示了方法论选择如何颠覆结论,具有警示意义。然而,作为一篇方法论文章,其主要贡献停留在“指出问题”和“提出建议”,缺乏一个经过严格验证、可直接复现的工具包或评估协议。此外,其提出的最佳实践框架本身的有效性,仅通过一个数据集(Fair-speech)的案例进行展示,普适性存疑。 ...

2026-05-12 · 更新于 2026-06-15 · 2 min · 293 words

Do Joint Audio-Video Generation Models Understand Physics?

📄 Do Joint Audio-Video Generation Models Understand Physics? #基准测试 #模型评估 #音视频 #跨模态 #生成模型 ✅ 7.5/10 | #基准测试 #模型评估 | arxiv 👥 作者与机构 第一作者:Zijun Cui (University of Texas at Dallas) 通讯作者:Yapeng Tian (University of Texas at Dallas) 作者列表:Zijun Cui (University of Texas at Dallas), Xiulong Liu (University of Washington), Hao Fang (University of Washington), Mingwei Xu (University of Washington), Jiageng Liu (University of California, Los Angeles), Zexin Xu (University of Texas at Dallas), Weiguo Pian (University of Texas at Dallas), Shijian Deng (University of Texas at Dallas), Feiyu Du (University of Texas at Dallas), Chenming Ge (University of Washington), Yapeng Tian (University of Texas at Dallas) 💡 毒舌点评 本文首次系统性地构建了评估联合音视频生成模型物理常识理解的基准AV-Phys Bench,其场景演进分类法(稳态、事件转换、环境转换)和反物理子类别设计为评估工作带来了急需的、结构化的维度。然而,其评估深度可能受限于“8秒短视频”和“纯感知物理”的框架,未能充分触及模型是否真正理解物理因果链,而非仅仅学会了感知层面的统计关联。 ...

2026-05-11 · 更新于 2026-06-15 · 3 min · 589 words