ICLR 2026 - 音视频事件检测 论文列表

ICLR 2026 - 音视频事件检测 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Entropy-Monitored Kernelized Token Distillation for Audio-Vi 8.5分 前25% 📋 论文详情 🥇 Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression 🔥 8.5/10 | 前25% | #音视频事件检测 | #知识蒸馏 | #多模态模型 #音频分类 👥 作者与机构 第一作者:Hyoungseob Park (Yale University, Amazon AGI 实习期间完成) 通讯作者:未明确说明(论文未标注通讯作者信息) 作者列表: Hyoungseob Park (Yale University) Lipeng Ke (Amazon AGI) Pritish Mohapatra (Amazon AGI) Huajun Ying (Amazon AGI) Sankar Venkataraman (Amazon AGI) Alex Wong (Yale University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 128 words

ICLR 2026 - 音视频深度伪造检测 论文列表

ICLR 2026 - 音视频深度伪造检测 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Tell me Habibi, is it Real or Fake? 8.5分 前25% 📋 论文详情 🥇 Tell me Habibi, is it Real or Fake? 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本 👥 作者与机构 第一作者:Kartik Kuckreja (MBZUAI) 通讯作者:未明确标注,但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表:Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 109 words

ICLR 2026 - 音视频联合推理 论文列表

ICLR 2026 - 音视频联合推理 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning E 7.0分 前25% 📋 论文详情 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型 👥 作者与机构 第一作者:Jianghan Chao(中国人民大学高瓴人工智能学院) 通讯作者:Ruihua Song(中国人民大学高瓴人工智能学院) 作者列表:Jianghan Chao(中国人民大学高瓴人工智能学院),Jianzhang Gao(中国人民大学高瓴人工智能学院),Wenhui Tan(中国人民大学高瓴人工智能学院),Yuchong Sun(中国人民大学高瓴人工智能学院),Ruihua Song(中国人民大学高瓴人工智能学院),Liyun Ru(百川智能) 💡 毒舌点评 亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架,并巧妙地利用先进的LLM构建了自动化数据生成流水线,在保证质量的同时大幅降低了标注成本;短板在于其基准数据集完全来源于SF20K这一特定影视数据集,可能存在领域偏差,且论文主要贡献是评估基准而非新的建模方法,对推动模型架构本身创新的直接贡献有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:公开。论文提供了项目页面链接 (https://jointavbench.github.io),并说明JointAVBench数据集将在该页面发布。 Demo:未提及。 复现材料:论文在附录中提供了生成流水线各阶段使用的详细Prompt模板(如图10-16),这对于复现其数据生成过程至关重要。 论文中引用的开源项目:引用了多个开源模型(Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等)和工具(PySceneDetect)用于构建基准。 整体开源计划:论文明确表示会发布数据集,但代码和模型权重的开源计划未提及。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 91 words

ICLR 2026 - 音频分离 论文列表

ICLR 2026 - 音频分离 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation 7.5分 前25% 📋 论文详情 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试 👥 作者与机构 第一作者:未说明(论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”) 通讯作者:未说明 作者列表:Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。(注:1指浙江大学,2指独立作者,具体实验室或部门未在文中提供) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 119 words

ICLR 2026 - 音频分类 论文列表

ICLR 2026 - 音频分类 共 6 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 MindMix: A Multimodal Foundation Model for Auditory Percepti 9.0分 前10% 🥈 Resp-Agent: An Agent-Based System for Multimodal Respiratory 9.0分 前10% 🥉 PACE: Pretrained Audio Continual Learning 9.0分 前10% 4. Unmute the Patch Tokens: Rethinking Probing in Multi-Label A 7.5分 前25% 5. SNAP-UQ: Self-supervised Next-Activation Prediction for Sing 7.5分 前25% 6. Better Together: Leveraging Unpaired Multimodal Data for Str 7.0分 前25% 📋 论文详情 🥇 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习 ...

2026-05-04 · 更新于 2026-05-20 · 4 min · 839 words

ICLR 2026 - 音频场景理解 论文列表

ICLR 2026 - 音频场景理解 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omn 7.5分 前25% 📋 论文详情 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学,南洋理工大学) 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院) 作者列表: Ziyang Ma(上海交通大学,南洋理工大学)* Ruiyang Xu(上海交通大学)* Zhenghao Xing(香港中文大学)* Yunfei Chu(阿里巴巴通义团队) Yuxuan Wang(阿里巴巴通义团队) Jinzheng He(阿里巴巴通义团队) Jin Xu†(阿里巴巴通义团队) Pheng-Ann Heng(香港中文大学) Kai Yu(上海交通大学) Junyang Lin(阿里巴巴通义团队) Eng Siong Chng(南洋理工大学) Xie Chen‡(上海交通大学,上海创新研究院) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 114 words

ICLR 2026 - 音频安全 论文列表

ICLR 2026 - 音频安全 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio L 8.0分 前10% 📋 论文详情 🥇 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本 👥 作者与机构 第一作者:Zifan Peng (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 通讯作者:Wenhan Dong (未说明具体单位,但标注为*Corresponding authors),Xinlei He (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 作者列表:Zifan Peng (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学(广州))、Zhen Sun (香港科技大学(广州))、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学(广州))、Jingyi Zheng (香港科技大学(广州))、Wenhan Dong (香港科技大学(广州))、Xinlei He (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学(广州))、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 127 words

ICLR 2026 - 音频检索 论文列表

ICLR 2026 - 音频检索 共 4 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings w 8.0分 前25% 🥈 Beyond Instance-Level Alignment: Dual-Level Optimal Transpor 7.5分 前25% 🥉 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with 7.0分 前25% 4. SupCLAP: Controlling Optimization Trajectory Drift in Audio- 7.0分 前25% 📋 论文详情 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索 ...

2026-05-04 · 更新于 2026-05-20 · 3 min · 500 words

ICLR 2026 - 音频生成 论文列表

ICLR 2026 - 音频生成 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensiona 9.0分 前10% 🥈 SCRAPL: Scattering Transform with Random Paths for Machine L 8.5分 前25% 🥉 UALM: Unified Audio Language Model for Understanding, Genera 8.5分 前25% 4. Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution 8.0分 前25% 5. Aurelius: Relation Aware Text-to-Audio Generation At Scale 8.0分 前25% 6. AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis wi 8.0分 前25% 7. TangoFlux: Super Fast and Faithful Text to Audio Generation 8.0分 前25% 8. LayerSync: Self-aligning Intermediate Layers 7.5分 前25% 9. AudioX: A Unified Framework for Anything-to-Audio Generation 7.5分 前25% 📋 论文详情 🥇 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配 ...

2026-05-04 · 更新于 2026-05-20 · 9 min · 1782 words

ICLR 2026 - 音频编辑 论文列表

ICLR 2026 - 音频编辑 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 SmartDJ: Declarative Audio Editing with Audio Language Model 8.5分 前25% 📋 论文详情 🥇 SmartDJ: Declarative Audio Editing with Audio Language Model 🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频 👥 作者与机构 第一作者:Zitong Lan(宾夕法尼亚大学WAVES实验室) 通讯作者:未明确说明(论文未指定通讯作者) 作者列表:Zitong Lan(宾夕法尼亚大学WAVES实验室)、Yiduo Hao(宾夕法尼亚大学WAVES实验室)、Mingmin Zhao(宾夕法尼亚大学WAVES实验室) 💡 毒舌点评 亮点:本文最大的亮点在于提出了“声明式”音频编辑的范式,并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它,同时配套构建了首个可扩展的声明式音频编辑数据集合成管道,形成了一个完整的技术闭环。 短板:实验完全依赖于合成数据集,虽然合成过程逼真,但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战,其泛化能力在论文中未得到真实场景验证。 🔗 开源详情 代码:论文中未提及代码仓库链接。但承诺在论文接受后发布代码。 模型权重:未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。 数据集:论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。 Demo:未提及提供在线演示。 复现材料:提供了极其详细的实现细节,包括模型架构(层数、维度、参数量)、训练配置(学习率、批大小、优化器、训练步数/轮数)、数据合成流程(提示词模板、声学模拟参数),以及消融实验设置。附录非常完整。 论文中引用的开源项目:CLAP(用于音频编码)、FLAN-T5(用于文本编码)、Stable-Audio-Open(作为部分基线)、PyRoomAcoustics(用于声学模拟)、AudioSep(作为对比模型)、GPT-4o(用于数据合成)。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 130 words