ICLR 2026 - 音视频联合推理 论文列表
ICLR 2026 - 音视频联合推理 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning E 7.0分 前25% 📋 论文详情 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型 👥 作者与机构 第一作者:Jianghan Chao(中国人民大学高瓴人工智能学院) 通讯作者:Ruihua Song(中国人民大学高瓴人工智能学院) 作者列表:Jianghan Chao(中国人民大学高瓴人工智能学院),Jianzhang Gao(中国人民大学高瓴人工智能学院),Wenhui Tan(中国人民大学高瓴人工智能学院),Yuchong Sun(中国人民大学高瓴人工智能学院),Ruihua Song(中国人民大学高瓴人工智能学院),Liyun Ru(百川智能) 💡 毒舌点评 亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架,并巧妙地利用先进的LLM构建了自动化数据生成流水线,在保证质量的同时大幅降低了标注成本;短板在于其基准数据集完全来源于SF20K这一特定影视数据集,可能存在领域偏差,且论文主要贡献是评估基准而非新的建模方法,对推动模型架构本身创新的直接贡献有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:公开。论文提供了项目页面链接 (https://jointavbench.github.io),并说明JointAVBench数据集将在该页面发布。 Demo:未提及。 复现材料:论文在附录中提供了生成流水线各阶段使用的详细Prompt模板(如图10-16),这对于复现其数据生成过程至关重要。 论文中引用的开源项目:引用了多个开源模型(Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等)和工具(PySceneDetect)用于构建基准。 整体开源计划:论文明确表示会发布数据集,但代码和模型权重的开源计划未提及。 📌 核心摘要 ...