MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

📄 MMTB: Evaluating Terminal Agents on Multimedia-File Tasks #基准测试 #音视频 #系统设计 🔥 60/10 | 前25% | #基准测试 | #系统设计 | #音视频 | arxiv 学术质量 6.7/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Chiyeong Heo(POSTECH GSAI) 通讯作者:Jungseul Ok(POSTECH GSAI, POSTECH CSE) 作者列表:Chiyeong Heo(POSTECH GSAI)、Jaechang Kim(POSTECH GSAI)、Junhyuk Kwon(POSTECH GSAI)、Hoyoung Kim(National AI Research Lab)、Dongmin Park(Krafton AI)、Jonghyun Lee(Krafton AI)、Jungseul Ok(POSTECH GSAI, POSTECH CSE) 💡 毒舌点评 本文定义了一个重要的评估缺口(多媒体文件工作流),并提出了对应的基准(MMTB)和评估框架(Terminus-MM)。核心贡献在于填补空白和提供系统性的消融证据。然而,论文的“现实世界”代表性存在根本性缺陷:1)所有任务均在受控、自包含的沙箱中完成,与真实工作流中充满干扰、网络依赖和复杂交互的环境相去甚远;2)声称的“付费工作流”来源仅体现在任务描述的灵感上,但实际任务经过了高度简化和包装,例如,105个任务中60个(57%)被最佳系统同时解决失败,这强烈暗示任务难度或现实性不足。此外,Terminus-MM的“原生感知”工具(listen_audio, watch_video)被严重黑箱化,其内部调用的模型(例如是Gemini的原生能力还是独立的ASR/VLM模型)未做任何说明,这使得“原生访问”与“命令行工具”的对比在公平性上存疑,因为前者的计算成本和延迟可能已被外部化。 📌 核心摘要 要解决什么问题:现有的终端代理基准主要关注文本、代码和结构化文件,缺乏对现实世界中广泛存在的、需要直接操作音频/视频文件的多媒体文件工作流(Multimedia-File Tasks)的评估。 方法核心是什么:本文提出了一个多模态终端代理基准MMTB(包含105个来自真实付费工作流的任务)和一个多媒体终端代理框架Terminus-MM。Terminus-MM扩展了Terminus-2和Terminus-KIRA,增加了原生音频感知工具listen_audio和原生视频感知工具watch_video。其关键设计是“工作空间感知的工具路由”或“模态掩码”机制:在任务开始时,框架扫描工作空间的文件扩展名,动态确定存在的媒体模态(音频、视频、图像),并只向代理的LLM后端暴露与之对应的感知工具。 与已有方法相比新在哪里:首次在终端代理评估中引入内容感知(Content-aware)和跨文件工作流(Cross-file workflow)的多媒体任务。系统性地证明了原生多模态访问(直接理解音频/视频内容)相较于通过命令行工具(如ffmpeg、ASR)进行间接转换和处理,在效率和成本上的显著优势。 主要实验结果如何:在Gemini-3.1-Pro模型上,提供完整原生模态访问(文本+图像+音频+视频)的Terminus-MM取得了最高成功率(二元成功率0.371,部分成功率0.469),显著优于仅文本访问的Terminus-2(0.124, 0.162)。消融实验表明,原生音频和视频访问是性能提升的主要贡献。当原生模态缺失时,依赖命令行工具转换会导致API成本平均增加1.63x至7.72x,最差情况超过30x。移除动态工具路由(模态掩码)会导致性能下降(如Gemini-3.1-Pro上二元成功率从0.371降至0.324)。失败分析显示,Terminus-MM的主要失败原因是模型推理错误(47%),而商用CLI工具Codex CLI则有更高比例的工具操作相关失败(尤其是超时,39%)。 实际意义是什么:为开发和评估能够处理现实世界多媒体文件工作流的AI代理提供了标准化基准;揭示了原生多模态感知对于提升代理效率、降低成本和可靠性的关键作用;为未来多媒体代理系统的设计指明了方向。 主要局限性是什么:未提供与人类专家基线的直接比较;基准任务规模(105个)和多样性可能不足以完全覆盖所有现实场景;所有评估均在固定10分钟预算内进行,未探索更长预算下的行为;“原生感知”工具的内部实现细节未公开。 🔗 开源详情 代码:https://github.com/mm-tbench/multimedia-terminal-bench 模型权重:论文中未提及提供模型权重下载链接。论文中使用的Qwen3.5-122B、GPT-5.2、Gemini-2.5-Flash、Gemini-3.1-Pro、Sonnet-4.6等均为第三方闭源模型或需通过API/订阅服务访问。Terminus-MM作为工具框架,其本身不包含模型权重。 数据集:MultiMedia-TerminalBench (MMTB) 数据集。获取链接:https://huggingface.co/datasets/mm-tbench/mmtb-media。数据集包含Per-asset media licenses记录在各任务的media.toml中,以CC-BY, CC0, 和 public-domain为主,并包含一个符合Croissant 1.0标准的元数据文件。 Demo:论文中未提及在线演示链接。项目主页为:https://mm-tbench.github.io/multimedia-terminal-bench/ 复现材料:论文详细描述了评估设置,包括任务格式(Harbor任务)、评估协议、代码仓库和附录中的实现细节。完整的复现需要代码仓库、任务数据集以及访问所使用的模型API。 论文中引用的开源项目: Terminal-Bench:论文中的基准测试格式和部分任务设计参考自此项目。链接:https://github.com/terminal-bench/terminal-bench Terminus-2:作为基础的文本终端代理框架。链接:https://github.com/terminal-bench/terminal-bench (Terminal-Bench项目的一部分) Terminus-KIRA:增加了原生图像感知的终端代理框架,采用Apache-2.0许可。链接:https://github.com/terminal-bench/terminus-kira ffmpeg:广泛使用的音视频处理命令行工具。链接:https://ffmpeg.org/ LilyPond:用于乐谱排版的音乐记谱语言和程序。链接:https://lilypond.org/ FluidSynth:软件合成器,用于将MIDI转换为音频。链接:https://www.fluidsynth.org/ Kokoro-82M:论文中提及的一个采用Apache-2.0许可的语音合成模型,用于生成实验中的合成语音。 Godot:开源游戏引擎,用于生成游戏QA任务的视频素材。链接:https://godotengine.org/ Wav2Lip:用于口型同步的视频合成工具。链接:https://github.com/Rudrabha/Wav2Lip reportlab / wkhtmltopdf:用于PDF文档生成的工具。链接:https://www.reportlab.com/ 和 https://wkhtmltopdf.org/ matplotlib:用于生成图表和示意图的Python库。链接:https://matplotlib.org/ music21:用于分析和处理音乐表示的Python工具包。链接:https://web.mit.edu/music21/ 相关基准测试与框架(未直接提供代码链接,但在论文中被引用比较): WebArena / VisualWebArena OSWorld OmniBench JointAVBench AVTrustBench OmniPlay VideoWebArena Claude Code Codex CLI SWE-bench / MLE-bench / AppWorld 🏗️ 方法概述和架构 本文的核心工作是设计并构建一个名为MMTB(MultiMedia-TerminalBench)的评估基准,以及一个用于在该基准上评估的多媒体终端代理框架Terminus-MM。该系统旨在评估终端代理在处理以音视频文件为核心对象的复杂工作流时的能力。 ...

2026-05-13 · 更新于 2026-06-12 · 3 min · 556 words

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

📄 OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models #音视频 #模型压缩 #推理加速 #跨模态对齐 ✅ 7.0/10 | 前25% | #音视频 | #模型压缩 | #推理加速 #跨模态对齐 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室) 通讯作者:Yuxing Han(清华大学深圳国际研究生院) 作者列表:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室)、Zidang Cai(未说明具体机构)、Hai-Tao Zheng(清华大学深圳国际研究生院)、Jie Wang(清华大学深圳国际研究生院)、Feidiao Yang(鹏城实验室)、Yuxing Han(清华大学深圳国际研究生院) 💡 毒舌点评 本文提出了一个针对Omni-LLM推理加速的训练免费两阶段压缩框架,核心贡献在于认识到原生固定分块可能破坏跨模态对应关系,并据此设计了CPCR模块。方法设计思路清晰,实验结果也显示了在特定设置下优于SOTA(OmniZip)的效率-性能权衡。然而,框架的成功高度依赖一系列手动调节的超参数(如阈值τ,系数β,正则项λ_c),且这些参数的敏感性分析缺失,使得“训练免费”和“即插即用”的宣称大打折扣。此外,论文未开源代码,且在部分表格数据(如β值)上存在不一致,降低了其可信度和可复现性。方法虽然加速了预填充阶段,但端到端延迟提升有限,实际部署收益需打折扣。 📌 核心摘要 要解决什么问题:现有Omnimodal LLMs (Omni-LLMs) 因长视频流和密集音频序列导致推理成本高昂。现有token压缩方法通常使用固定或原生的压缩单元(chunks),容易破坏跨模态的对应关系和互补信息,从而在提升效率时难以稳定保持性能。 方法核心是什么:提出了OmniRefine,一个训练免费的两阶段音视频token压缩框架。第一阶段(CPCR)利用帧-音频相似度和动态规划,将原生的时间分块边界细化为跨模态对齐的压缩单元。第二阶段(MACC)在每个细化单元内进行模态感知的协作压缩:视频分支通过树结构策略压缩空间和时间冗余,音频分支在语义锚点约束下压缩连续声学内容,且音频的压缩预算会自适应地参考视频的保留率。 与已有方法相比新在哪里:关键创新在于显式地优化了压缩单元的边界(通过CPCR)以保持跨模态对齐,并在此基础上设计了模态特异且预算协作的压缩策略(通过MACC)。不同于直接对单模态进行压缩或使用固定分块的方法,OmniRefine首先改善了数据组织的单元,为后续压缩提供了更优的基础。 主要实验结果如何:在Qwen2.5-Omni-7B上,OmniRefine在WorldSense基准测试中,以44%的token保留率(31% FLOPs)达到了46.7%的准确率,几乎匹配了使用完整token的基线(46.8%)。在更激进的30%保留率下,仍能达到46.4%,优于OmniZip在更高保留率下的表现(45.3%-45.9%)。在AVUT和VideoMME上也展示了具有竞争力的性能-效率权衡。消融实验证明了CPCR和MACC模块的互补贡献。 实际意义是什么:该方法为高效部署Omni-LLMs提供了实用的解决方案。它是训练免费的,且兼容KV缓存重用,能降低多轮推理的预填充开销,对于在资源受限设备上实现实时音视频理解有潜在价值。 主要局限性是什么:论文承认的局限是方法依赖一系列手动设置的超参数。审稿人认为,更根本的限制在于:1)缺乏超参数敏感性分析,其泛化能力和“即插即用”特性存疑;2)端到端加速收益有限;3)部分实验数据(如β值)在正文与附录中不一致,需澄清。 🔗 开源详情 代码:论文中未给出具体代码仓库链接。摘要中提及“The code and interface will be released to facilitate further research.”,表明未来会发布代码,但当前版本未提供URL。 模型权重:论文中未提及。论文指出其方法基于 Qwen2.5-Omni 架构实现,但未提供 OmniRefine 本身压缩后的模型权重下载链接。 数据集:论文中提及并使用了以下公开基准测试数据集,但未在正文中提供直接获取链接。具体名称为: WorldSense [18] VideoMME [13] AVUT [57] Demo:论文中未提及。 复现材料:论文附录提供了详细的超参数设置表(表5)、算法伪代码(算法1)以及评估协议描述,这些信息有助于复现。但未提供完整的训练配置(本方法无需训练)等。 论文中引用的开源项目: Qwen2.5-Omni:作为基础模型使用。论文引用了模型名,但未给出链接。 FastV:作为基线方法进行比较。论文引用了方法名,但未给出链接。 LMMs-Eval:在VideoMME评估中使用的框架。论文引用了框架名,但未给出链接。 🏗️ 方法概述和架构 OmniRefine是一个面向Omnimodal LLMs推理加速的、训练免费的两阶段音视频token压缩框架。其核心流程是:输入原始编码后的音视频token序列 → 经过第一阶段(CPCR)进行跨模态对齐的分块优化 → 在第二阶段(MACC)于每个优化后的分块内进行模态感知的协作压缩 → 输出压缩后的token序列,用于LLM的预填充阶段。 ...

2026-05-13 · 更新于 2026-06-12 · 4 min · 688 words

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Qijie You(北京科技大学 University of Science and Technology Beijing) 通讯作者:Wentao Zhang(北京大学 Peking University、中关村学院 Zhongguancun Academy) 作者列表:Qijie You(北京科技大学)、Hao Liang(北京大学、中关村学院,同等贡献)、Mingrui Chen(中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences)、Bohan Zeng(北京大学)、Meiyi Qiang(北京大学)、Zhenhao Wong(北京大学)、Wentao Zhang(北京大学、中关村学院,项目负责人,通讯作者) 💡 毒舌点评 这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段,完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图;其提出的“硬双模态约束”过滤机制是一个非常聪明的设计,确保了跨模态查询不是简单的拼接。然而,其短板也明显:整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上,这虽保证了规模,却也引入了模型特有的偏见,且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑,更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

2026-05-12 · 更新于 2026-06-12 · 4 min · 708 words

Do Joint Audio-Video Generation Models Understand Physics?

📄 Do Joint Audio-Video Generation Models Understand Physics? #基准测试 #模型评估 #音视频 #跨模态 #生成模型 ✅ 7.5/10 | #基准测试 #模型评估 | arxiv 👥 作者与机构 第一作者:Zijun Cui (University of Texas at Dallas) 通讯作者:Yapeng Tian (University of Texas at Dallas) 作者列表:Zijun Cui (University of Texas at Dallas), Xiulong Liu (University of Washington), Hao Fang (University of Washington), Mingwei Xu (University of Washington), Jiageng Liu (University of California, Los Angeles), Zexin Xu (University of Texas at Dallas), Weiguo Pian (University of Texas at Dallas), Shijian Deng (University of Texas at Dallas), Feiyu Du (University of Texas at Dallas), Chenming Ge (University of Washington), Yapeng Tian (University of Texas at Dallas) 💡 毒舌点评 本文首次系统性地构建了评估联合音视频生成模型物理常识理解的基准AV-Phys Bench,其场景演进分类法(稳态、事件转换、环境转换)和反物理子类别设计为评估工作带来了急需的、结构化的维度。然而,其评估深度可能受限于“8秒短视频”和“纯感知物理”的框架,未能充分触及模型是否真正理解物理因果链,而非仅仅学会了感知层面的统计关联。 ...

2026-05-11 · 更新于 2026-06-12 · 3 min · 589 words

Audio-Visual Intelligence in Large Foundation Models

📄 Audio-Visual Intelligence in Large Foundation Models #多模态模型 #跨模态 #预训练 #生成模型 #音视频 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:You Qin(未说明), Kai Liu(未说明), Shengqiong Wu(未说明), Kai Wang(未说明), Shijian Deng(未说明), Yapeng Tian(未说明), Junbin Xiao(未说明), Yazhou Xing(未说明), Yinghao Ma(未说明), Bobo Li(未说明), Roger Zimmermann(未说明), Lei Cui(未说明), Furu Wei(未说明), Jiebo Luo(未说明), Hao Fei(未说明) 💡 毒舌点评 这是一篇雄心勃勃的综述,旨在为快速发展的音视频智能领域建立一个以大型基础模型为核心的统一分类体系和全景图,其系统性整合工作价值显著。然而,作为一篇理论框架性的综述,它本质上是领域地图的绘制,而非对具体技术难题的攻坚,因此对于寻求具体技术实现或实验验证细节的读者,其直接指导意义有限。 ...

2026-05-09 · 更新于 2026-06-12 · 1 min · 190 words

AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

📄 AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner #视频编辑 #扩散模型 #音频生成 #音视频 🔥 8.0/10 | 前25% | #视频编辑 | #扩散模型 | #音频生成 #音视频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院) 通讯作者:Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 作者列表:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院),Shuchen Weng(北京人工智能研究院,北京大学计算机科学学院),Jingqi Liu(北京大学软件与微电子学院,北京人工智能研究院),Siqi Yang(北京大学人工智能研究院),Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 💡 毒舌点评 这篇工作就像一位细心的“音频-视频外科医生”,不仅能精准切除或替换视频中的特定实例(如把狗变成猫),还能确保它的叫声也同步变化,这种对模态间精细时空对齐的执着在现有编辑工具中相当稀缺。然而,其“手术”目前一次只能处理一个“病人”(单实例),且整个“手术器械”(自反馈音频代理)依赖一个外部模型“工具箱”,这让人担心其在真实世界复杂场景下的自主性和鲁棒性。 📌 核心摘要 问题:现有视频编辑方法主要关注视觉层面,破坏了原始视频中至关重要的音频-视频同步,且缺乏实例级别的精细空间和时间控制。 方法核心:提出AVI-Edit框架,包含三个关键组件:基于Wan2.2的音频同步视频骨干网络(通过帧级交叉注意力融合音频信息)、粒度感知遮罩精炼器(GAMR,迭代式地将用户提供的粗糙遮罩精化为精确的实例轮廓)、自反馈音频代理(通过“分离-生成-重混-修正”的闭环流程,利用外部工具生成高质量的引导音频)。 创新点:a) 引入“精度因子”来量化和控制遮罩的粗糙程度,实现迭代式遮罩精化;b) 设计了自反馈音频代理,能够根据场景自适应选择分离和生成模型,并通过质量评判进行迭代优化;c) 构建了首个大规模、实例中心的音频-视频编辑数据集AVISet。 实验结果:在AVISet和AvED-Bench两个数据集上,AVI-Edit在视觉质量(FVD/IS)、条件遵循(TC/AC)和音视频同步(Sync-C/D)等定量指标上均优于现有方法(AvED, Ovi, VACE-Foley)。用户研究显示,在音视频同步、文本对齐和总体偏好方面,AVI-Edit均获得最高支持率(最高达49.20%)。 实际意义:为高质量的视频内容创作提供了新工具,允许用户在保留背景和非目标音频的前提下,对视频中的特定实例及其关联音频进行精准、同步的编辑,适用于影视后期、短视频创作等场景。 主要局限性:a) 目前仅支持单实例顺序编辑,无法同时处理多个目标实例;b) 框架的音频代理模块依赖一组预设的外部模型,其性能受限于这些外部组件的质量和泛化能力。 🔗 开源详情 代码:论文中未提及代码链接 ...

2026-05-07 · 更新于 2026-06-12 · 3 min · 444 words

AsymK-Talker: Real-Time and Long-Horizon Talking Head Generation via Asymmetric Kernel Distillation

📄 AsymK-Talker: Real-Time and Long-Horizon Talking Head Generation via Asymmetric Kernel Distillation #语音合成 #扩散模型 #知识蒸馏 #音视频 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #知识蒸馏 #音视频 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuxin Lu(未说明) 通讯作者:未说明 作者列表:Yuxin Lu(未说明)、Qian Qiao(未说明)、Jiayang Sun(未说明)、Min Cao(未说明)、Guibo Zhu(未说明) 💡 毒舌点评 亮点:论文提出了“运动内核”这一精巧的中间表示,通过“解码-再编码”策略和“非对称蒸馏”框架,系统性地解决了分块生成中的因果一致性与长期漂移两大痛点,方案完整且实验效果显著(FVD、Sync-C/D均达SOTA)。短板:其效果高度依赖Wan2.1这个强大的3D VAE骨干网络和特定的音频编码器,这可能限制了方法在不同架构上的泛化性与轻量化部署;此外,生成的视频在相邻块边界处仍存在肉眼可见的不连续现象,论文将其归因于训练数据噪声,但这也暗示了其方案在无缝长时程生成上仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。论文中仅在摘要和第6节指出“我们的代码和视频结果将公开发布”。 模型权重:论文中未提及模型权重链接。论文中仅说明使用了Wan2.1作为骨干网络,并未提供训练好的AsymK-Talker模型权重。 数据集: 训练集使用了多个公开数据集及一个自采数据集: AVSpeech: https://storage.googleapis.com/avsdf/avsdf/index.html HDTF: https://github.com/tancunhao/High-Definition-Talking-Face-Dataset OpenHumanVid: https://github.com/OpenHumanVid/OpenHumanVid TalkVid: 论文中未提及具体链接。 VFHQ: https://tencentarc.github.io/vfhq/ 自采数据集:论文中未提及获取方式。 评估集使用了HDTF和VFHQ中的部分样本。 Demo:论文中未提及在线演示链接。 复现材料: 训练配置:在第4.1节“Implementation Details”中提供了详细的训练参数: 硬件:16 x NVIDIA H20 GPU。 输入:512x512分辨率,81帧一个块。 动态核大小 m=3,回归锚定损失权重 λreg=0.2。 教师模型去噪步数:1000步;学生模型蒸馏为4步。 优化器:AdamW,批大小4,bfloat16混合精度,使用FSDP分布式策略。 训练流程:教师模型预训练15,000步,随后学生模型蒸馏1,600步。 论文附录中提供了更多实验结果和分析,但未提及提供预训练检查点或完整训练脚本。 论文中引用的开源项目: Wan2.1 (文本到视频扩散模型): https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B Wan-VAE (3D因果变分自编码器): 随Wan2.1模型发布,链接同上。 Wav2Vec 2.0 (音频编码器): https://huggingface.co/facebook/wav2vec2-large-960h umT5 (文本编码器,本文未使用): https://huggingface.co/google/umt5-small ffmpeg (音频分离工具): https://ffmpeg.org/ 人脸解析模型 (Yu et al., 2021): 论文中未提供具体链接。 AdamW 优化器: 论文引用自 Loshchilov & Hutter, 2017,无特定开源链接。 其他作为对比或背景引用的项目(如SadTalker, Hallo, Sora, Tune-A-Video等)在论文中有引用,但未作为本项目直接复现的依赖项,故不在此列出具体链接。 补充信息 [细节详述] 补充:训练分为两个明确且独立的阶段:1) 教师模型预训练(15,000步),优化目标包含扩散损失、时间一致性损失和面部保真度损失(公式13)。2) 学生模型蒸馏(1,600步),优化目标为分布匹配蒸馏损失与回归锚定损失的加权和(公式14)。这种分阶段训练是AKD框架实现稳定性的基础。 [细节详述] 补充:论文明确指出,最终训练数据集由预处理后得到217小时高质量、同步的音视频对组成。 [模型架构] 补充:在骨干网络部分,论文详细说明了Wan-VAE的解耦压缩策略:第一帧仅进行空间压缩,以确保图像兼容性;后续帧则进行时空压缩以捕获运动。这是其作为3D VAE的关键特性。 [实验结果] 补充:在定性评估中,论文指出AsymK-Talker生成30秒视频的延迟比基线中最快的SadTalker还要快2.6倍。 [实验结果] 补充:在消融实验的回归锚定权重(λreg) 部分,论文提供了图6的视觉化对比,展示了λreg=0.0时画面出现显著伪影和不稳定,而λreg=0.5或更大时面部动态被抑制,表情显得静态和重复。这直观地解释了选择λreg=0.2的理由。 [细节详述] 补充:在非对称内核蒸馏(AKD)中,论文通过公式(9) 详细说明了在蒸馏阶段,如何构造教师模型的输入:将真实运动内核κgt与当前时间步的噪声x_t的其余部分拼接,以锚定监督信号。 [评分理由] 补充:论文在第7节(Impact Statement) 中主动讨论了本研究可能带来的社会影响与伦理风险,例如实时身份冒充、欺诈和深度伪造的泛滥,并倡导开发实时检测算法、集成水印和溯源标准以及遵守严格的伦理准则。这一点在已有分析中未被提及。 [模型架构] 补充:论文在第3.1节(Preliminaries) 中简要回顾了所采用的Flow Matching(流匹配) 框架及其训练目标(公式2),这是理解其扩散模型训练范式的基础。 [评分理由] 补充:论文在第6节(Limitations) 中将块边界不连续问题部分归因于训练数据子集中存在的“细微相机抖动”,尽管已进行过滤。这为问题提供了更具体的环境解释。 [模型架构] 补充:在TRE组件中,论文强调了通过Wan-VAE编码“伪视频”序列,实际上是将静态参考投影到一个与视频数据分布兼容的、包含时序先验的潜空间,从而在结构上与动态音频条件更匹配。 📌 核心摘要 解决的问题:现有基于扩散模型的说话头生成方法存在三大瓶颈:因果推理效率低(无法实时)、静态参考图像与动态音频条件不兼容、分块生成时误差累积导致长期画面漂移(如身份退化、画面扭曲)。 方法核心:提出AsymK-Talker,一个结合了扩散与蒸馏的框架。核心包括:KCLG(基于运动内核的循环分块生成,实现因果实时性)、TRE(将静态参考图像编码为时域感知的潜变量,提升音视频同步)、AKD(非对称内核蒸馏,教师模型用真实内核监督,学生模型学习生成内核,以抑制长期漂移)。 创新点:1)提出“运动内核”及解码-再编码策略,确保分块生成间的因果信息传递;2)设计TRE,隐式为静态图像注入时序先验,无需逐帧监督;3)创新性地采用非对称条件进行知识蒸馏,使学生模型在推理时更鲁棒。 主要实验结果:在HDTF和VFHQ数据集上,AsymK-Talker在视觉质量(FVD)和唇音同步(Sync-C, Sync-D)上全面超越SadTalker、Hallo3等SOTA方法。例如,在HDTF数据集上,FVD达到116.78(最优),Sync-C达到8.11(最优)。消融实验证实了运动内核大小(m=3)、TRE以及非对称蒸馏策略的有效性。推理速度相比高保真扩散模型AniPortrait和Hallo3分别实现13倍和215倍加速。 实际意义:实现了高保真、实时、且能长时间稳定生成的音频驱动说话头视频,为虚拟助手、远程呈现、内容创作等实时交互应用提供了关键技术支撑。 主要局限性:1)生成视频在相邻音频-视觉块边界处偶有不连续;2)教师模型训练需要大量计算资源;3)方法性能部分依赖于Wan2.1骨干网络和Wav2Vec音频编码器。 🏗️ 模型架构 AsymK-Talker的整体架构旨在实现实时、长时程、高保真的音频驱动说话头视频生成。其核心流程如图2所示。 ...

2026-05-06 · 更新于 2026-06-12 · 2 min · 418 words

BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios

📄 BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios #基准测试 #模型评估 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #音视频 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Advait Tilak(未说明) 通讯作者:未说明 作者列表:Advait Tilak(未说明)、Jiwon Choi(未说明)、Nazifa Mouli(未说明)、Wei Le(未说明) 💡 毒舌点评 亮点:BRITE基准的核心设计非常“聪明”,它通过“不可能场景”和细粒度问答,像给T2V模型做“压力测试”和“CT扫描”,能精准定位模型是“记不住动作”还是“对不上音画”,这比单纯看生成视频“像不像”深刻得多。 短板:然而,这个“CT扫描仪”本身有点贵——整个评估依赖大量人工标注,导致基准规模受限(每个模型仅100个提示),其结论的统计显著性和泛化能力可能会被质疑,更像是一个概念验证(Proof-of-Concept)而非可无限扩展的工业标准。 🔗 开源详情 代码:https://doi.org/10.6084/m9.figshare.31179547 模型权重:论文中未提及 数据集:https://doi.org/10.6084/m9.figshare.31179547 Demo:论文中未提及 复现材料:论文中提及的代码、提示词和数据集均发布于上述 figshare 链接。论文附录提供了用于生成提示词和评估问题的 LLM 提示词模板(Meta-Prompt),但未提及模型训练配置或检查点。 论文中引用的开源项目:未提及(论文中引用的评估对象为闭源商业模型,如 Sora 2, Veo 3.1, Runway Gen4.5 等;使用的生成工具如 GPT-4, Gemini 2.5 Pro 为闭源商业 API,未提供其开源代码仓库链接)。 📌 核心摘要 问题:当前文本到视频(T2V)生成模型的评估基准存在两大盲点:一是主要关注合理场景,无法测试模型在违背常识的“不可能场景”下是否还能忠实于指令;二是绝大多数基准只评估视觉,忽略了对音频及其与视频同步性的评估。 方法核心:提出了BRITE,一个集不可能场景提示、多维度(包含音频与音视频同步)原子问题评估、以及人类在环可靠验证于一体的综合T2V评估框架。 创新之处:(1) 系统性地将“不可能场景”(社会反转、生物/物理不可能、时间修改)作为核心测试用例;(2) 首次在T2V基准中引入对音频内容和音视频时序同步的细粒度评估;(3) 设计了人类在环协议(从提示筛选、问题生成到最终标注)以规避VLM评估的“循环偏见”,确保可靠性。 实验结果:在五个SOTA模型(Sora 2, Veo 3.1等)上评估了500个视频和1364个问题。结果显示,模型普遍在生成静态主体(平均得分0.90)和环境(0.94)上表现良好,但在动态动作绑定(0.59)、音频正确性(0.61)和音视频同步(0.47)上显著退化。其中,时间修改类场景最具挑战性(平均分0.65)。关键数据见下表: 模型 总体得分 主体 动作 环境 音频 音视频同步 Runway Gen4.5 0.84 0.93 0.61 0.96 N/A N/A Sora 2 0.77 0.94 0.65 0.95 0.76 0.55 Veo 3.1 0.76 0.92 0.58 0.97 0.69 0.63 Qwen3MAX 0.69 0.90 0.56 0.90 0.63 0.41 PixVerse 5.5 0.59 0.82 0.55 0.88 0.37 0.31 平均 0.73 0.90 0.59 0.94 0.61 0.47 上图(a)显示了模型在“不可能场景”上的整体及分维度表现;下图(b)展示了在四类不同不可能提示上的推理性能。关键结论:Runway Gen4.5综合表现最佳,但所有模型在“时间修改”上均表现不佳,且主体-动作性能差距显著。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 295 words

Delayed Commitment for Representation Readiness in Stage-wise Audio-Visual Learning

📄 Delayed Commitment for Representation Readiness in Stage-wise Audio-Visual Learning #音视频 #多模态模型 #语音分离 #语音识别 #音频事件检测 ✅ 7.5/10 | 前25% | #音视频 | #多模态模型 | #语音分离 #语音识别 | arxiv 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xinmeng Xu(岭南大学人工智能系) 通讯作者:Haoran Xie(岭南大学人工智能系) 作者列表: Xinmeng Xu(岭南大学人工智能系) Haoran Xie(岭南大学人工智能系) S. Joe Qin(岭南大学人工智能系) Lin Li(武汉理工大学计算机与人工智能学院) Xiaohui Tao(南昆士兰大学数学、物理与计算学院) Fu Lee Wang(香港都会大学科技学院) 💡 毒舌点评 亮点:论文最大的价值在于将音视频融合中“局部匹配好但后续支持不足”的中间状态,形式化为一个可计算、可干预的“准备度缺陷”问题,并设计了一套从诊断到修复的完整框架,这种从“现象描述”到“机理分析”再到“模块化修正”的研究思路非常扎实。短板:方法的核心创新(识别并强化弱支持层)在某些视角下可视为一种特殊的层间注意力或自适应特征精炼,其相对于现有注意力机制的质变提升并不明显;此外,论文对计算开销的讨论较浅,虽然声称是编码器级轻量干预,但增加的支持聚合和门控计算在具体硬件上的实际延迟影响未被充分量化。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及并使用了LRS2、LRS3、VoxCeleb2、AVE数据集,但未提供具体的获取链接或开源协议。 Demo:论文中未提及 复现材料:论文中提及了训练配置的概要(如使用Adam优化器、NVIDIA H100 GPU训练、早停策略),但未提供具体的配置文件、检查点或详细复现指南。 论文中引用的开源项目:论文中引用了多个音频-视觉学习相关的基线方法(如AV-ConvTasNet, VisualVoice, CTC-Net, RTFS-Net, LAVisH, AVMoE等),但未提供这些项目的具体开源仓库链接。 补充信息 [模型架构] 补充:原文在 Table IX: Implementation Design Ablations 中详细分析了承诺评估和支持感知瓶颈完成的实现设计选择,该部分内容在已有分析中未被提及。该表格报告了在LRS2数据集不同条件下,针对路由策略(训练与推理时软/硬路由的组合)、评估线索来源(音频/视觉线索是否为学习得到)、修正阶段选择(单阶段、同时Top-2、迭代2阶段)、支持分支设计(仅视觉支持、仅音频支持、无支持、完整支持)以及支持模块设计(是否包含跨模态交互、是否包含全局聚合)等不同变体的消融实验结果(SI-SNRi)。这些实验验证了默认设计选择的合理性,是模型实现的重要组成部分。 [细节详述] 补充: 训练硬件:分析中已提及优化器、学习率等,但未明确说明训练硬件。论文第五节明确指出“Training is conducted on NVIDIA H100 GPUs”。 实现设计消融:分析中详细列举了Table VIII的组件消融(CA/BC),但未提及原文 Section VII-D Implementation Design Analysis 和 Table IX 中的实现设计消融。该部分分析了不同路由策略、评估线索来源、修正阶段选择、支持分支设计等具体实现选择对性能的影响,是理解模型工程细节的关键,补充了分析中“训练策略”和“关键超参数”部分的深度。 [实验结果] 补充: 与SOTA的量化差距:分析中在结论部分提到了性能提升,但未在实验结果部分给出与关键基线的具体提升数值。可在相应表格结论中补充具体数字,例如:在AVSS任务LRS2数据集标准设置下(Table II),DPC-Net的SI-SNRi(16.8 dB)比最强对照基线AV-CrossNet†(16.5 dB)高出0.3 dB;在AVSR任务LRS2数据集-5~5 dB设置下(Table V),WER(9.0%)比AD-AVSR(9.4%)绝对值低0.4%。 统计可靠性具体数值:分析中提及了Table VII显示结果稳定,但未列出具体的均值和标准差。可在该部分补充关键设置下的具体统计数值,例如:在AVSS LRS2 Clean设置下,DPC-Net的SI-SNRi为16.84±0.18 dB(AV-CrossNet†为16.46±0.21 dB);在AVEL Swin-V2-L+HTS-AT设置下,准确率为83.28±0.11%(AVMoE†为82.13±0.10%)。 [核心摘要] 补充:在“局限性”部分,可进一步明确论文原文提及的局限性。除了分析中已列出的三点,论文摘要最后一句还强调了方法的有效性可能依赖于编码器具有明显的阶段性中间层表示,对于更连续的融合架构(如某些Transformer)的适用性有待验证。这一点已在分析的“核心摘要”局限性第3点中提及,但表述可以更直接引用原文。更重要的是,分析未提及原文在Section I Introduction中关于方法局限性的具体讨论:干预模块增加了参数和计算开销,但论文未详细量化在具体硬件上的实际延迟影响。这一讨论在“毒舌点评”中被提及,但未在“核心摘要”的局限性列表中强调其作为已声明局限性的重要性。 [评分理由] 补充:在“学术质量分”的“实验充分性”部分,可补充原文 Section VI-D Statistical Reliability 和 Table VII 的内容。论文不仅进行了广泛的任务对比,还通过五次重复运行报告了均值和标准差,以证明性能提升的统计可靠性,这增强了实验充分性的说服力,是评分中“实验充分性(优秀)”的一个具体支撑点。 📌 核心摘要 问题:在多阶段音视频编码器中,中间层的融合状态会被传递到后续层。一个在当前阶段局部一致性很强的融合状态,可能在没有积累足够的跨层、跨模态证据支持前,就过早地获得了对后续表示的强大影响力,导致“过早感知承诺”,损害整体表示质量。 方法核心:提出了延迟感知承诺网络(DPC-Net)。它通过估计一个“准备度缺陷”代理指标 $\widehat{D}_{l}$ 来定位干预敏感的瓶颈层(该指标综合了当前层的音视频一致性、下游锚定度、支持覆盖度)。随后,聚合所有层的音视频支持证据,对瓶颈层的表示进行门控残差校正,以增强其支持覆盖度,再传递给后续层。 创新点:首次将多模态中间层融合的“时机”和“准备度”问题形式化为“准备度缺陷”;提出了基于可观测线索的瓶颈定位准则;设计了一个编码器级、任务无关的干预框架,在保持任务头和损失不变的情况下提升表示。 实验结果:在AVSS(语音分离)、AVEL(事件定位)、AVSR(语音识别)三个任务和多个数据集上均取得一致提升。例如,在LRS2语音分离标准设置下,SI-SNRi达到16.8 dB,超过最强基线AV-CrossNet(16.5 dB);在LRS2语音识别低信噪比(-5~5 dB)设置下,WER降至9.0%,优于AD-AVSR(9.4%)。在视觉降质(遮挡、噪声模糊)条件下,优势更为明显。 实际意义:为设计更鲁棒的多模态融合模型提供了新思路,即不仅关注当前层的交互,还应评估中间状态对后续步骤的“准备就绪”程度。该方法可作为通用模块提升多种音视频任务的性能。 局限性:1)干预模块本身增加了参数和计算开销(论文未详细讨论实际延迟影响);2)准备度代理指标的阈值($\tau_A, \tau_P, \tau_C$)需要设定,其敏感性分析可更深入;3)方法的有效性可能依赖于编码器具有明显的阶段性中间层表示,对于更连续的融合架构(如某些Transformer)的适用性有待验证。 🏗️ 模型架构 DPC-Net是一个编码器级的干预框架,旨在嵌入到现有的多阶段音视频编码器中,改进其中间融合状态的表示质量,而不改变任务特定的头部、损失和解码器。 ...

2026-05-05 · 更新于 2026-06-12 · 3 min · 461 words

Multimodal Confidence Modeling in Audio-Visual Quality Assessment

📄 Multimodal Confidence Modeling in Audio-Visual Quality Assessment #音视频 #多模态模型 #模型评估 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 | #模型评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Mayesha Maliha R. Mithila(论文中未说明其所属机构) 通讯作者:未说明 作者列表:Mayesha Maliha R. Mithila(未说明)、Mylene C. Q. Farias(未说明) 💡 毒舌点评 本文最大的亮点在于将“模态置信度”从模糊的心理学概念,落地为一个可端到端训练、并能显式调控特征级融合的模块,使模型在“一边瞎一边瞎”的极端场景下依然表现稳健,这比简单堆叠注意力要聪明得多。然而,论文在创新性上略显“缝合”,将已有的MVAD、SCOREQ、Swin等工具进行组合,虽有效但不够性感;更关键的是,在音频/视频质量评估这样一个结果高度依赖主观标注的领域,仅在有限数据集上宣称SOTA,离解决泛化与工业化部署的鸿沟还差得远。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及了三个AVQA数据集:UnB-AV、UnB-AVQ和LIVE-SJTU。但论文中未提供这些数据集的获取链接。 Demo:论文中未提及 复现材料:论文中未提供检查点或附录链接,但提供了详细的训练配置细节,包括:使用Swin-Small和VGGish作为特征提取器;每视频均匀采样8帧;数据集划分比例为70:15:15(训练:验证:测试);使用Adam优化器,学习率为5×10⁻⁵,批量大小为6,L2权重衰减为5×10⁻³;采用早停策略,耐心为20轮;训练损失为MSE与PCC损失(权重λ=0.15)之和;所有结果在3个随机种子上取平均。 论文中引用的开源项目: Swin Transformer:论文中作为视觉特征提取骨干网络使用,但未提供项目主页链接。 VGGish:论文中作为音频特征提取器使用,但未提供项目主页链接。 补充信息 根据对深度分析结果与论文原文的仔细比对,发现现有分析遗漏了以下对理解论文有重要价值的信息: 模型架构 补充:论文中明确指出,其置信度引导的音视频混合器(AVM)的注意力权重计算(公式6:α = σ(qₐ ⊙ k_v^gated))采用了逐元素乘法,而非标准的注意力矩阵乘法。这种设计直接生成通道特异性的注意力权重,避免了计算复杂度高的矩阵乘法,并实现了对每个特征通道的独立调制。 实验结果 补充:在UnB-AV数据集的统计显著性分析中(表2),论文给出了MCM-AVQA与最佳基线Nave+w2v的绝对预测误差均值差异为0.054,并提供了详细的p值(如配对t检验p=2.1×10⁻³)。这一具体数值量化了MCM-AVQA的优势程度。 细节详述 补充:在训练策略部分,论文原文明确指出视频输入是“均匀采样8帧”(uniformly sampled frames per video (e.g. 8))进行处理。这是模型实现中的一个关键超参数。 📌 核心摘要 本文针对音视频质量评估(AVQA)在现实流媒体场景中常面临的“不对称失真”(如视频损坏但音频清晰,或反之)问题,指出现有方法多平等对待两种模态,导致不可靠信号被过度依赖。为此,论文提出了一个名为MCM-AVQA的多模态置信度感知框架。其核心方法是显式估计音频和视频各自的“置信度”分数,并利用一个定制的“音视频混合器”将该置信度注入到特征级的跨模态注意力机制中,通过置信度门控的通道注意力来调制特征交互,使得高置信度模态主导融合,低置信度输入被抑制。与已有方法(如NAViDAd的自动编码器、注意力晚期融合)相比,MCM-AVQA的新颖之处在于将置信度建模为驱动特征融合的核心信号,而非仅在决策层加权。在LIVE-SJTU、UnB-AV和UnB-AVQ三个AVQA基准数据集上的实验表明,MCM-AVQA在PLCC和SROCC指标上取得了最优或极具竞争力的结果。消融研究证实,其置信度引导的音视频混合器及置信度估计模块是性能提升的关键。该工作的实际意义在于提升了AVQA模型在真实、非理想条件下的鲁棒性和可解释性。其主要局限性可能在于:置信度模块(MVAD, SCOREQ)的依赖引入了额外的预训练模型和计算复杂度;模型在更广泛、更复杂的失真类型或场景下的泛化能力有待进一步验证。 ...

2026-05-05 · 更新于 2026-06-12 · 3 min · 433 words