ICLR 2026 - 音频场景理解 论文列表

ICLR 2026 - 音频场景理解 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omn 7.5分 前25% 📋 论文详情 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学,南洋理工大学) 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院) 作者列表: Ziyang Ma(上海交通大学,南洋理工大学)* Ruiyang Xu(上海交通大学)* Zhenghao Xing(香港中文大学)* Yunfei Chu(阿里巴巴通义团队) Yuxuan Wang(阿里巴巴通义团队) Jinzheng He(阿里巴巴通义团队) Jin Xu†(阿里巴巴通义团队) Pheng-Ann Heng(香港中文大学) Kai Yu(上海交通大学) Junyang Lin(阿里巴巴通义团队) Eng Siong Chng(南洋理工大学) Xie Chen‡(上海交通大学,上海创新研究院) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 114 words

ICLR 2026 - 音频安全 论文列表

ICLR 2026 - 音频安全 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio L 8.0分 前10% 📋 论文详情 🥇 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本 👥 作者与机构 第一作者:Zifan Peng (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 通讯作者:Wenhan Dong (未说明具体单位,但标注为*Corresponding authors),Xinlei He (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 作者列表:Zifan Peng (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学(广州))、Zhen Sun (香港科技大学(广州))、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学(广州))、Jingyi Zheng (香港科技大学(广州))、Wenhan Dong (香港科技大学(广州))、Xinlei He (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学(广州))、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 127 words

ICLR 2026 - 音频检索 论文列表

ICLR 2026 - 音频检索 共 4 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings w 8.0分 前25% 🥈 Beyond Instance-Level Alignment: Dual-Level Optimal Transpor 7.5分 前25% 🥉 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with 7.0分 前25% 4. SupCLAP: Controlling Optimization Trajectory Drift in Audio- 7.0分 前25% 📋 论文详情 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索 ...

2026-05-04 · 更新于 2026-05-22 · 3 min · 500 words

ICLR 2026 - 音频生成 论文列表

ICLR 2026 - 音频生成 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensiona 9.0分 前10% 🥈 SCRAPL: Scattering Transform with Random Paths for Machine L 8.5分 前25% 🥉 UALM: Unified Audio Language Model for Understanding, Genera 8.5分 前25% 4. Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution 8.0分 前25% 5. Aurelius: Relation Aware Text-to-Audio Generation At Scale 8.0分 前25% 6. AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis wi 8.0分 前25% 7. TangoFlux: Super Fast and Faithful Text to Audio Generation 8.0分 前25% 8. LayerSync: Self-aligning Intermediate Layers 7.5分 前25% 9. AudioX: A Unified Framework for Anything-to-Audio Generation 7.5分 前25% 📋 论文详情 🥇 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配 ...

2026-05-04 · 更新于 2026-05-22 · 9 min · 1782 words

ICLR 2026 - 音频编辑 论文列表

ICLR 2026 - 音频编辑 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 SmartDJ: Declarative Audio Editing with Audio Language Model 8.5分 前25% 📋 论文详情 🥇 SmartDJ: Declarative Audio Editing with Audio Language Model 🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频 👥 作者与机构 第一作者:Zitong Lan(宾夕法尼亚大学WAVES实验室) 通讯作者:未明确说明(论文未指定通讯作者) 作者列表:Zitong Lan(宾夕法尼亚大学WAVES实验室)、Yiduo Hao(宾夕法尼亚大学WAVES实验室)、Mingmin Zhao(宾夕法尼亚大学WAVES实验室) 💡 毒舌点评 亮点:本文最大的亮点在于提出了“声明式”音频编辑的范式,并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它,同时配套构建了首个可扩展的声明式音频编辑数据集合成管道,形成了一个完整的技术闭环。 短板:实验完全依赖于合成数据集,虽然合成过程逼真,但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战,其泛化能力在论文中未得到真实场景验证。 🔗 开源详情 代码:论文中未提及代码仓库链接。但承诺在论文接受后发布代码。 模型权重:未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。 数据集:论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。 Demo:未提及提供在线演示。 复现材料:提供了极其详细的实现细节,包括模型架构(层数、维度、参数量)、训练配置(学习率、批大小、优化器、训练步数/轮数)、数据合成流程(提示词模板、声学模拟参数),以及消融实验设置。附录非常完整。 论文中引用的开源项目:CLAP(用于音频编码)、FLAN-T5(用于文本编码)、Stable-Audio-Open(作为部分基线)、PyRoomAcoustics(用于声学模拟)、AudioSep(作为对比模型)、GPT-4o(用于数据合成)。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 130 words

ICLR 2026 - 音频问答 论文列表

ICLR 2026 - 音频问答 共 6 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Incentivizing Consistent, Effective and Scalable Reasoning C 8.5分 前10% 🥈 Echo: Towards Advanced Audio Comprehension via Audio-Interle 8.5分 前10% 🥉 Query-Guided Spatial–Temporal–Frequency Interaction for Musi 8.0分 前25% 4. Can Vision-Language Models Answer Face to Face Questions in 8.0分 前25% 5. Measuring Audio’s Impact on Correctness: Audio-Contribution- 7.5分 前25% 6. WorldSense: Evaluating Real-world Omnimodal Understanding fo 7.0分 前25% 📋 论文详情 🥇 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理 ...

2026-05-04 · 更新于 2026-05-22 · 3 min · 541 words

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理 学术质量 8.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院) 通讯作者:未说明 作者列表:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校),Roger Ren (Amazon),Jingyuan Li (Amazon),Rahul Pandey (Amazon),Prashanth Gurunath Shivakumar (Amazon),Ivan Bulyko (Amazon),Ankur Gandhe (Amazon),Ge Liu (伊利诺伊大学厄巴纳-香槟分校),Yile Gu (Amazon) 💡 毒舌点评 亮点在于系统性地诊断并解决了音频LLM推理的“测试时逆缩放”这一实际且重要的“反直觉”现象,并建立了一套从过程奖励到可扩展能力的完整方法论。短板是其基于GRPO的在线强化学习训练计算成本高昂(需要8块H200训练61小时),且多奖励组件的超参数调节(如α权重)虽经实验验证,但给实际复现增加了一定复杂度。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 261 words

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #音视频 #多模态模型 #扩散模型 #大语言模型 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 #扩散模型 | #多模态模型 #扩散模型 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jianwen Jiang(字节跳动 ByteDance) 通讯作者:Jianwen Jiang(字节跳动 ByteDance,论文中标注为“Project Lead and Corresponding author”) 作者列表:Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao(均隶属于字节跳动 ByteDance) 💡 毒舌点评 亮点:将认知科学的“双系统”概念巧妙映射到模型设计中,用MLLM进行高层“计划”来指导扩散模型的“生成”,这个框架思路新颖且具有启发性,伪最后帧的设计也有效解决了参考图像约束运动动态的问题。 短板:论文声称模拟了“System 2”的审慎推理,但该过程实则依赖外部MLLM的推理能力,其输出的“计划”质量取决于所用MLLM,且推理延迟(20-30秒)在实时或交互应用中是个显著负担。多模态融合的内部机制(尤其是音频、文本与视觉token如何在Transformer内“对称融合”)描述略显笼统。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 285 words

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音频条件 #多概念定制 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Zhenzhi Wang*(香港中文大学) 通讯作者:论文中未明确标注通讯作者 作者列表:Zhenzhi Wang(香港中文大学)、Jiaqi Yang(字节跳动)、Jianwen Jiang*B(字节跳动)、Chao Liang(字节跳动)、Gaojie Lin(字节跳动)、Zerong Zheng(字节跳动)、Ceyuan Yang(字节跳动)、Yuan Zhang(字节跳动)、Mingyuan Gao(字节跳动)、Dahua Lin(香港中文大学) 💡 毒舌点评 论文提出的显式布局预测模块有效解决了多人动画中的“鸡和蛋”困境,是音视频对齐领域一个清晰的技术进步。但论文的致命短板是零开源支持——没有代码、模型权重或训练数据,这使得其标榜的“基线”价值大打折扣,复现难度极高。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开的模型权重。 数据集:论文中描述了自建的大规模数据集,但未提及如何获取。 Demo:论文中提供了视频演示的链接 (https://zhenzhiwang.github.io/interacthuman/)。 复现材料:论文提供了详细的算法伪代码(算法1)、训练超参数(学习率、batch size、硬件、步数等)、损失函数设计和数据处理流程的描述,为复现提供了重要信息。附录包含更多实验细节。 论文中引用的开源项目:Wan2.1(预训练模型基础)、Qwen2.5-VL(提示重述)、Qwen2-VL(数据标注)、Gemini-2.0-Flash(描述解析)、Grounding-SAM2(掩码生成)、wav2vec 2.0(音频特征)、Florence-2(主体检测)、CLIP/DINO(特征提取)、SyncNet(唇音同步)、Raft(光流)、RTMpose(人体关键点)、PaddleOCR(字幕检测)、PySceneDetect(视频剪辑)等。 📌 核心摘要 问题:现有的端到端人体动画方法大多假设单一主体并采用全局条件注入,无法处理需要精确区域控制的多概念(多人、人-物)交互场景,尤其是将不同音频信号准确分配给对应人物的挑战。 方法:本文提出InterActHuman框架,其核心是一个轻量级掩码预测模块,能自动从参考图像中推断每个身份在视频中的时空布局(掩码)。在推理时,利用迭代扩散过程,将上一步预测的掩码用于指导当前步的局部音频注入,解决了布局预测与条件注入的相互依赖问题。 创新:与隐式学习(如特征融合)的已有方法不同,该工作首次提出并验证了显式布局约束对于多概念、多模态人体动画的重要性。它提供了一个统一的接口,通过布局来同步注入图像和音频等全局与局部条件。 实验结果:在多人音频驱动动画测试集上,该方法在唇音同步距离(Sync-D)和视频FVD指标上显著优于基线(如OmniHuman),具体数值见表1。用户研究也表明其在唇音同步和主体一致性上大幅领先(表2)。在多概念视频定制任务中,其身份保真度指标(如CLIP-I, DINO-I)也达到最佳(表3)��� 实际意义:为高质量、可控的多角色对话视频生成和基于多参考图像的视频定制提供了新的技术路径,有望应用于数字内容创作、虚拟交互等领域。 局限性:训练数据域较窄(主要为人像),限制了文本提示的多样性;模型主要针对2-3人场景训练,对更多人数的泛化能力未充分验证。 🏗️ 模型架构 InterActHuman是一个基于扩散变换器(DiT)的视频扩散框架,旨在实现多概念、多模态条件的人体动画生成。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 376 words

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #音频大模型 #对抗样本 #鲁棒性 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zifan Peng (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 通讯作者:Wenhan Dong (未说明具体单位,但标注为*Corresponding authors),Xinlei He (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 作者列表:Zifan Peng (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学(广州))、Zhen Sun (香港科技大学(广州))、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学(广州))、Jingyi Zheng (香港科技大学(广州))、Wenhan Dong (香港科技大学(广州))、Xinlei He (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学(广州))、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评 亮点:论文的系统性和工程完备性令人印象深刻,它不仅仅是一个数据集,更是一个集成了多种攻击、防御方法和分析工具的标准化评测平台,为尚处蓝海的音频大模型安全研究立下了第一个重要的坐标。短板:防御策略的探索相对浅尝辄止,仅仅是将视觉语言模型的方法简单适配,未能提出真正针对音频模态(如声学特征扰动)的、更有效的防御机制,使得“提出防御”这一目标打了折扣。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 283 words