ICLR 2026 - 跨模态生成 论文列表

ICLR 2026 - 跨模态生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional 9.5分 前10% 📋 论文详情 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows 🔥 9.5/10 | 前10% | #跨模态生成 | #流匹配 | #音频生成 #多模态模型 👥 作者与机构 第一作者:Yeonwoo Cha* (KAIST) 通讯作者:Seunghoon Hong (KAIST) 作者列表:Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST)(*表示同等贡献) 💡 毒舌点评 亮点在于其“共享潜在空间+单模态可逆流”的设计,用近乎暴力的简洁性一举解决了多模态生成中数据配对、计算成本和训练复杂度的“不可能三角”,工程思想非常漂亮。短板是论文为了突出效率,选用的模型体量和训练数据远小于前沿基线,可能在生成质量的绝对上限上有所妥协,且对更复杂的模态交互(如高保真视频生成)的能力尚未被充分验证。 🔗 开源详情 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 108 words

ICLR 2026 - 音乐信息检索 论文列表

ICLR 2026 - 音乐信息检索 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Bridging Piano Transcription and Rendering via Disentangled 8.0分 前25% 🥈 LLM2Fx-Tools: Tool Calling for Music Post-Production 7.0分 前25% 📋 论文详情 🥇 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 262 words

ICLR 2026 - 音乐理解 论文列表

ICLR 2026 - 音乐理解 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Pr 8.0分 前25% 🥈 Music Flamingo: Scaling Music Understanding in Audio Languag 7.5分 前25% 📋 论文详情 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索 👥 作者与机构 第一作者:Benjamin Shiue-Hal Chou(Purdue University) 通讯作者:未说明(论文未明确指定,但联系邮箱主要为{作者名}@purdue.edu,可能为共同指导) 作者列表: Benjamin Shiue-Hal Chou(Purdue University) Purvish Jajal(Purdue University) Nick John Eliopoulos(Purdue University) James C. Davis(Purdue University) George K. Thiruvathukal(Loyola University Chicago) Kristen Yeon-Ji Yun(Purdue University) Yung-Hsiang Lu(Purdue University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 224 words

ICLR 2026 - 音乐生成 论文列表

ICLR 2026 - 音乐生成 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Steering Autoregressive Music Generation with Recursive Feat 8.5分 前25% 🥈 SongEcho: Towards Cover Song Generation via Instance-Adaptiv 8.5分 前25% 🥉 Latent Fourier Transform 8.5分 前25% 4. Discovering and Steering Interpretable Concepts in Large Gen 8.0分 前25% 5. Token-Based Audio Inpainting via Discrete Diffusion 7.5分 前25% 6. SyncTrack: Rhythmic Stability and Synchronization in Multi-T 7.5分 前25% 7. YuE: Scaling Open Foundation Models for Long-Form Music Gene 7.5分 前25% 8. Generative Adversarial Post-Training Mitigates Reward Hackin 7.0分 前25% 9. Automatic Stage Lighting Control: Is it a Rule-Driven Proces 7.0分 前25% 📋 论文详情 🥇 Steering Autoregressive Music Generation with Recursive Feature Machines 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预 ...

2026-05-04 · 更新于 2026-05-22 · 7 min · 1298 words

ICLR 2026 - 音视频 论文列表

ICLR 2026 - 音视频 共 4 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audi 9.0分 前25% 🥈 JavisDiT: Joint Audio-Video Diffusion Transformer with Hiera 8.5分 前25% 🥉 Syncphony: Synchronized Audio-to-Video Generation with Diffu 8.0分 前25% 4. Instilling an Active Mind in Avatars via Cognitive Simulatio 7.0分 前25% 📋 论文详情 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 400 words

ICLR 2026 - 音视频事件检测 论文列表

ICLR 2026 - 音视频事件检测 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Entropy-Monitored Kernelized Token Distillation for Audio-Vi 8.5分 前25% 📋 论文详情 🥇 Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression 🔥 8.5/10 | 前25% | #音视频事件检测 | #知识蒸馏 | #多模态模型 #音频分类 👥 作者与机构 第一作者:Hyoungseob Park (Yale University, Amazon AGI 实习期间完成) 通讯作者:未明确说明(论文未标注通讯作者信息) 作者列表: Hyoungseob Park (Yale University) Lipeng Ke (Amazon AGI) Pritish Mohapatra (Amazon AGI) Huajun Ying (Amazon AGI) Sankar Venkataraman (Amazon AGI) Alex Wong (Yale University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 128 words

ICLR 2026 - 音视频深度伪造检测 论文列表

ICLR 2026 - 音视频深度伪造检测 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Tell me Habibi, is it Real or Fake? 8.5分 前25% 📋 论文详情 🥇 Tell me Habibi, is it Real or Fake? 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本 👥 作者与机构 第一作者:Kartik Kuckreja (MBZUAI) 通讯作者:未明确标注,但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表:Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 109 words

ICLR 2026 - 音视频联合推理 论文列表

ICLR 2026 - 音视频联合推理 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning E 7.0分 前25% 📋 论文详情 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型 👥 作者与机构 第一作者:Jianghan Chao(中国人民大学高瓴人工智能学院) 通讯作者:Ruihua Song(中国人民大学高瓴人工智能学院) 作者列表:Jianghan Chao(中国人民大学高瓴人工智能学院),Jianzhang Gao(中国人民大学高瓴人工智能学院),Wenhui Tan(中国人民大学高瓴人工智能学院),Yuchong Sun(中国人民大学高瓴人工智能学院),Ruihua Song(中国人民大学高瓴人工智能学院),Liyun Ru(百川智能) 💡 毒舌点评 亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架,并巧妙地利用先进的LLM构建了自动化数据生成流水线,在保证质量的同时大幅降低了标注成本;短板在于其基准数据集完全来源于SF20K这一特定影视数据集,可能存在领域偏差,且论文主要贡献是评估基准而非新的建模方法,对推动模型架构本身创新的直接贡献有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:公开。论文提供了项目页面链接 (https://jointavbench.github.io),并说明JointAVBench数据集将在该页面发布。 Demo:未提及。 复现材料:论文在附录中提供了生成流水线各阶段使用的详细Prompt模板(如图10-16),这对于复现其数据生成过程至关重要。 论文中引用的开源项目:引用了多个开源模型(Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等)和工具(PySceneDetect)用于构建基准。 整体开源计划:论文明确表示会发布数据集,但代码和模型权重的开源计划未提及。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 91 words

ICLR 2026 - 音频分离 论文列表

ICLR 2026 - 音频分离 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation 7.5分 前25% 📋 论文详情 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试 👥 作者与机构 第一作者:未说明(论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”) 通讯作者:未说明 作者列表:Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。(注:1指浙江大学,2指独立作者,具体实验室或部门未在文中提供) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 119 words

ICLR 2026 - 音频分类 论文列表

ICLR 2026 - 音频分类 共 6 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 MindMix: A Multimodal Foundation Model for Auditory Percepti 9.0分 前10% 🥈 Resp-Agent: An Agent-Based System for Multimodal Respiratory 9.0分 前10% 🥉 PACE: Pretrained Audio Continual Learning 9.0分 前10% 4. Unmute the Patch Tokens: Rethinking Probing in Multi-Label A 7.5分 前25% 5. SNAP-UQ: Self-supervised Next-Activation Prediction for Sing 7.5分 前25% 6. Better Together: Leveraging Unpaired Multimodal Data for Str 7.0分 前25% 📋 论文详情 🥇 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习 ...

2026-05-04 · 更新于 2026-05-22 · 4 min · 839 words