Iclr-2026

ICLR 2026 - 音频问答论文列表

ICLR 2026 - 音频问答共 6 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Incentivizing Consistent, Effective and Scalable Reasoning C 8.5分前10% 🥈 Echo: Towards Advanced Audio Comprehension via Audio-Interle 8.5分前10% 🥉 Query-Guided Spatial–Temporal–Frequency Interaction for Musi 8.0分前25% 4. Can Vision-Language Models Answer Face to Face Questions in 8.0分前25% 5. Measuring Audio’s Impact on Correctness: Audio-Contribution- 7.5分前25% 6. WorldSense: Evaluating Real-world Omnimodal Understanding fo 7.0分前25% 📋 论文详情 🥇 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理 ...

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理学术质量 8.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院) 通讯作者：未说明作者列表：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校)，Roger Ren (Amazon)，Jingyuan Li (Amazon)，Rahul Pandey (Amazon)，Prashanth Gurunath Shivakumar (Amazon)，Ivan Bulyko (Amazon)，Ankur Gandhe (Amazon)，Ge Liu (伊利诺伊大学厄巴纳-香槟分校)，Yile Gu (Amazon) 💡 毒舌点评亮点在于系统性地诊断并解决了音频LLM推理的“测试时逆缩放”这一实际且重要的“反直觉”现象，并建立了一套从过程奖励到可扩展能力的完整方法论。短板是其基于GRPO的在线强化学习训练计算成本高昂（需要8块H200训练61小时），且多奖励组件的超参数调节（如α权重）虽经实验验证，但给实际复现增加了一定复杂度。 ...

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #音视频 #多模态模型 #扩散模型 #大语言模型 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 #扩散模型 | #多模态模型 #扩散模型学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Jianwen Jiang（字节跳动 ByteDance）通讯作者：Jianwen Jiang（字节跳动 ByteDance，论文中标注为“Project Lead and Corresponding author”）作者列表：Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao（均隶属于字节跳动 ByteDance） 💡 毒舌点评亮点：将认知科学的“双系统”概念巧妙映射到模型设计中，用MLLM进行高层“计划”来指导扩散模型的“生成”，这个框架思路新颖且具有启发性，伪最后帧的设计也有效解决了参考图像约束运动动态的问题。短板：论文声称模拟了“System 2”的审慎推理，但该过程实则依赖外部MLLM的推理能力，其输出的“计划”质量取决于所用MLLM，且推理延迟（20-30秒）在实时或交互应用中是个显著负担。多模态融合的内部机制（尤其是音频、文本与视觉token如何在Transformer内“对称融合”）描述略显笼统。 ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音频条件 #多概念定制 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang*（香港中文大学）通讯作者：论文中未明确标注通讯作者作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang*B（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评论文提出的显式布局预测模块有效解决了多人动画中的“鸡和蛋”困境，是音视频对齐领域一个清晰的技术进步。但论文的致命短板是零开源支持——没有代码、模型权重或训练数据，这使得其标榜的“基线”价值大打折扣，复现难度极高。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开的模型权重。数据集：论文中描述了自建的大规模数据集，但未提及如何获取。 Demo：论文中提供了视频演示的链接 (https://zhenzhiwang.github.io/interacthuman/)。复现材料：论文提供了详细的算法伪代码（算法1）、训练超参数（学习率、batch size、硬件、步数等）、损失函数设计和数据处理流程的描述，为复现提供了重要信息。附录包含更多实验细节。论文中引用的开源项目：Wan2.1（预训练模型基础）、Qwen2.5-VL（提示重述）、Qwen2-VL（数据标注）、Gemini-2.0-Flash（描述解析）、Grounding-SAM2（掩码生成）、wav2vec 2.0（音频特征）、Florence-2（主体检测）、CLIP/DINO（特征提取）、SyncNet（唇音同步）、Raft（光流）、RTMpose（人体关键点）、PaddleOCR（字幕检测）、PySceneDetect（视频剪辑）等。 📌 核心摘要问题：现有的端到端人体动画方法大多假设单一主体并采用全局条件注入，无法处理需要精确区域控制的多概念（多人、人-物）交互场景，尤其是将不同音频信号准确分配给对应人物的挑战。方法：本文提出InterActHuman框架，其核心是一个轻量级掩码预测模块，能自动从参考图像中推断每个身份在视频中的时空布局（掩码）。在推理时，利用迭代扩散过程，将上一步预测的掩码用于指导当前步的局部音频注入，解决了布局预测与条件注入的相互依赖问题。创新：与隐式学习（如特征融合）的已有方法不同，该工作首次提出并验证了显式布局约束对于多概念、多模态人体动画的重要性。它提供了一个统一的接口，通过布局来同步注入图像和音频等全局与局部条件。实验结果：在多人音频驱动动画测试集上，该方法在唇音同步距离（Sync-D）和视频FVD指标上显著优于基线（如OmniHuman），具体数值见表1。用户研究也表明其在唇音同步和主体一致性上大幅领先（表2）。在多概念视频定制任务中，其身份保真度指标（如CLIP-I， DINO-I）也达到最佳（表3）�� 实际意义：为高质量、可控的多角色对话视频生成和基于多参考图像的视频定制提供了新的技术路径，有望应用于数字内容创作、虚拟交互等领域。局限性：训练数据域较窄（主要为人像），限制了文本提示的多样性；模型主要针对2-3人场景训练，对更多人数的泛化能力未充分验证。 🏗️ 模型架构 InterActHuman是一个基于扩散变换器（DiT）的视频扩散框架，旨在实现多概念、多模态条件的人体动画生成。 ...

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #音频大模型 #对抗样本 #鲁棒性 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zifan Peng (香港科技大学（广州），State Key Laboratory of Internet Architecture，清华大学) 通讯作者：Wenhan Dong (未说明具体单位，但标注为*Corresponding authors)，Xinlei He (香港科技大学（广州），State Key Laboratory of Internet Architecture，清华大学) 作者列表：Zifan Peng (香港科技大学（广州），清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学（广州）)、Zhen Sun (香港科技大学（广州）)、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学（广州）)、Jingyi Zheng (香港科技大学（广州）)、Wenhan Dong (香港科技大学（广州）)、Xinlei He (香港科技大学（广州），清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学（广州）)、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评亮点：论文的系统性和工程完备性令人印象深刻，它不仅仅是一个数据集，更是一个集成了多种攻击、防御方法和分析工具的标准化评测平台，为尚处蓝海的音频大模型安全研究立下了第一个重要的坐标。短板：防御策略的探索相对浅尝辄止，仅仅是将视觉语言模型的方法简单适配，未能提出真正针对音频模态（如声学特征扰动）的、更有效的防御机制，使得“提出防御”这一目标打了折扣。 ...

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization #音视频 #扩散模型 #Transformer #基准测试 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 #Transformer | #扩散模型 #Transformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kai Liu (浙江大学, 新加坡国立大学) (*共同第一作者) 通讯作者：Hao Fei (新加坡国立大学) 作者列表： Kai Liu (浙江大学，新加坡国立大学) (*共同第一作者) Wei Li (中国科学技术大学) (*共同第一作者) Lai Chen (浙江大学) Shengqiong Wu (新加坡国立大学) Yanhao Zheng (浙江大学) Jiayi Ji (新加坡国立大学) Fan Zhou (浙江大学) Jiebo Luo (罗切斯特大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) (†通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评论文提出了一个架构设计完整、实验验证充分的端到端音视频生成模型，其“分层时空先验估计”的思路有效提升了生成内容的同步性，配套的JavisBench基准和JavisScore指标也直指现有评估的痛点。然而，该模型的计算开销庞大（生成4秒240P视频在H100上耗时30秒），且其在更复杂、更高分辨率或更长时长场景下的泛化能力仍待验证。 ...

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频 #流匹配 #扩散模型 #多模态模型 #偏好优化 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Liu (浙江大学) 通讯作者：Hao Fei (新加坡国立大学) 作者列表： Kai Liu (浙江大学) Yanhao Zheng (未说明) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评这篇论文的亮点在于提出了一个极其简洁有效的统一架构（MS-MoE）和精确的时间对齐策略（TA-RoPE），以相对较低的模型参数（2.1B）和数据量（~1M）达到了接近商业模型（Veo3）的SOTA性能。短板是其核心贡献高度依赖特定的视频生成骨干（Wan2.1），这虽然加速了研发，但也意味着其音视频联合生成的泛化能力与独立性有待进一步验证，且其对训练数据质量与分布的敏感性（见消融研究）暗示了在开放域场景下的潜在挑战。 ...

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

📄 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation #多模态模型 #基准测试 #音视频联合推理 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianghan Chao（中国人民大学高瓴人工智能学院）通讯作者：Ruihua Song（中国人民大学高瓴人工智能学院）作者列表：Jianghan Chao（中国人民大学高瓴人工智能学院），Jianzhang Gao（中国人民大学高瓴人工智能学院），Wenhui Tan（中国人民大学高瓴人工智能学院），Yuchong Sun（中国人民大学高瓴人工智能学院），Ruihua Song（中国人民大学高瓴人工智能学院），Liyun Ru（百川智能） 💡 毒舌点评亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架，并巧妙地利用先进的LLM构建了自动化数据生成流水线，在保证质量的同时大幅降低了标注成本；短板在于其基准数据集完全来源于SF20K这一特定影视数据集，可能存在领域偏差，且论文主要贡献是评估基准而非新的建模方法，对推动模型架构本身创新的直接贡献有限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：公开。论文提供了项目页面链接 (https://jointavbench.github.io)，并说明JointAVBench数据集将在该页面发布。 Demo：未提及。复现材料：论文在附录中提供了生成流水线各阶段使用的详细Prompt模板（如图10-16），这对于复现其数据生成过程至关重要。论文中引用的开源项目：引用了多个开源模型（Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等）和工具（PySceneDetect）用于构建基准。整体开源计划：论文明确表示会发布数据集，但代码和模型权重的开源计划未提及。 📌 核心摘要要解决什么问题：现有评估全模态大语言模型（Omni-LLMs）的基准测试在音视频关联严格性、音频类型多样性和场景复杂度覆盖方面存在不足，无法有效评估模型真正的联合音视频推理能力。方法核心是什么：提出JointAVBench，一个从5个认知维度、4种音频类型、3个场景跨度构建的15项任务基准。其核心创新在于设计了一个三阶段半自动化数据生成流水线：首先生成全模态描述（视频、语音、声音事件、音乐、声纹特征），然后利用LLM合成严格依赖音视频联合信息的问答对，最后通过通用到特定的多层质量控制确保数据质量。与已有方法相比新在哪里：这是首个同时满足“严格音视频关联（AV Correlation Ratio 100%）”、“覆盖四种音频类型（含声纹特征）”和“涵盖单场景、跨场景、全场景”的综合基准。与现有基准（如WorldSense，AV Corr. 62.9%）相比，其问题设计更严谨地强制依赖双模态信息。主要实验结果如何：在JointAVBench上评估了主流Omni-LLMs、Video-LLMs和Audio-LLMs。结果显示，即使最强的Omni-LLM（Gemini2.5-Pro）平均准确率也仅为62.6%，显著优于单模态模型，但在跨场景推理等任务上表现仍不理想。模型在声纹特征和语音相关任务（如SPER， SPL）上表现最差，在涉及声音事件和音乐的任务上表现相对较好。实际意义是什么：为评估和推动具有真正音视频联合推理能力的Omni-LLM发展提供了关键的、标准化的评测工具，明确指出了当前模型在处理抽象音频信息（如声纹特征、情感）和复杂跨场景推理时的主要短板。主要局限性是什么：数据源单一（仅SF20K短片），可能引入领域偏差；设计的任务分类法虽全面但无法穷尽所有音视频推理能力；受计算资源限制，实验评估的模型数量有限。 🏗️ 模型架构本文并非提出一个新的模型架构，而是设计一个评估基准。其核心贡献在于数据生成与质量控制流水线。论文详细描述的流水线架构如下： ...

Knowing When to Quit: Probabilistic Early Exits for Speech Separation Networks

📄 Knowing When to Quit: Probabilistic Early Exits for Speech Separation Networks #语音分离 #语音增强 #概率建模 #提前退出 #实时处理 ✅ 7.0/10 | 前25% | #语音分离 | #概率建模 | #语音增强 #提前退出学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Kenny Falkær Olsen (Technical University of Denmark, WS Audiology) 通讯作者：未说明作者列表：Kenny Falkær Olsen (Technical University of Denmark, WS Audiology)， Mads Østergaard (WS Audiology)， Karl Ulbæk (WS Audiology)， Søren Føns Nielsen (WS Audiology)， Rasmus Malik Høegh Lindrup (WS Audiology)， Bjørn Sand Jensen (Technical University of Denmark)， Morten Mørup (Technical University of Denmark) 💡 毒舌点评亮点在于将概率建模与早退机制结合，推导出一套基于置信度的、可解释的SNR退出准则，比传统的启发式或固定损失权衡方法更 principled。短板是框架的实用性高度依赖于模型预测的不确定性（σ²）是否校准良好，论文显示这需要额外的、在全长度数据上的微调，增加了实际部署的复杂性，且核心模型架构（PRESS-Net）本身在绝对性能上并非无懈可击。 ...

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

📄 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection #音乐理解 #多模态模型 #端到端 #音乐信息检索 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Benjamin Shiue-Hal Chou（Purdue University）通讯作者：未说明（论文未明确指定，但联系邮箱主要为{作者名}@purdue.edu，可能为共同指导）作者列表： Benjamin Shiue-Hal Chou（Purdue University） Purvish Jajal（Purdue University） Nick John Eliopoulos（Purdue University） James C. Davis（Purdue University） George K. Thiruvathukal（Loyola University Chicago） Kristen Yeon-Ji Yun（Purdue University） Yung-Hsiang Lu（Purdue University） 💡 毒舌点评亮点：论文将“音乐练习错误检测”这一序列比较问题，巧妙地转化为一个多模态编码与解码任务，并且通过架构设计（Ladder编码器）和输入表示（符号提示）两个层面，针对性地解决了之前方法在对齐能力和输入歧义上的痛点，设计思路清晰且有效。短板：符号提示策略在更简单的CocoChorales-E数据集上（尤其对Extra Note）带来的增益有限，甚至略有下降，表明这种多模态融合的收益可能与任务复杂度强相关；此外，模型对大幅节奏变化和复杂和弦遮蔽的处理仍有明显局限。 ...