Posts

ICLR 2026 - 跨模态生成论文列表

ICLR 2026 - 跨模态生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional 9.5分前10% 📋 论文详情 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows 🔥 9.5/10 | 前10% | #跨模态生成 | #流匹配 | #音频生成 #多模态模型 👥 作者与机构第一作者：Yeonwoo Cha* (KAIST) 通讯作者：Seunghoon Hong (KAIST) 作者列表：Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST)（*表示同等贡献） 💡 毒舌点评亮点在于其“共享潜在空间+单模态可逆流”的设计，用近乎暴力的简洁性一举解决了多模态生成中数据配对、计算成本和训练复杂度的“不可能三角”，工程思想非常漂亮。短板是论文为了突出效率，选用的模型体量和训练数据远小于前沿基线，可能在生成质量的绝对上限上有所妥协，且对更复杂的模态交互（如高保真视频生成）的能力尚未被充分验证。 🔗 开源详情 ...

ICLR 2026 - 音乐信息检索论文列表

ICLR 2026 - 音乐信息检索共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Bridging Piano Transcription and Rendering via Disentangled 8.0分前25% 🥈 LLM2Fx-Tools: Tool Calling for Music Post-Production 7.0分前25% 📋 论文详情 🥇 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 👥 作者与机构第一作者：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者：Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 ...

ICLR 2026 - 音乐理解论文列表

ICLR 2026 - 音乐理解共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Pr 8.0分前25% 🥈 Music Flamingo: Scaling Music Understanding in Audio Languag 7.5分前25% 📋 论文详情 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索 👥 作者与机构第一作者：Benjamin Shiue-Hal Chou（Purdue University）通讯作者：未说明（论文未明确指定，但联系邮箱主要为{作者名}@purdue.edu，可能为共同指导）作者列表： Benjamin Shiue-Hal Chou（Purdue University） Purvish Jajal（Purdue University） Nick John Eliopoulos（Purdue University） James C. Davis（Purdue University） George K. Thiruvathukal（Loyola University Chicago） Kristen Yeon-Ji Yun（Purdue University） Yung-Hsiang Lu（Purdue University） 💡 毒舌点评 ...

ICLR 2026 - 音乐生成论文列表

ICLR 2026 - 音乐生成共 9 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Steering Autoregressive Music Generation with Recursive Feat 8.5分前25% 🥈 SongEcho: Towards Cover Song Generation via Instance-Adaptiv 8.5分前25% 🥉 Latent Fourier Transform 8.5分前25% 4. Discovering and Steering Interpretable Concepts in Large Gen 8.0分前25% 5. Token-Based Audio Inpainting via Discrete Diffusion 7.5分前25% 6. SyncTrack: Rhythmic Stability and Synchronization in Multi-T 7.5分前25% 7. YuE: Scaling Open Foundation Models for Long-Form Music Gene 7.5分前25% 8. Generative Adversarial Post-Training Mitigates Reward Hackin 7.0分前25% 9. Automatic Stage Lighting Control: Is it a Rule-Driven Proces 7.0分前25% 📋 论文详情 🥇 Steering Autoregressive Music Generation with Recursive Feature Machines 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预 ...

ICLR 2026 - 音视频论文列表

ICLR 2026 - 音视频共 4 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audi 9.0分前25% 🥈 JavisDiT: Joint Audio-Video Diffusion Transformer with Hiera 8.5分前25% 🥉 Syncphony: Synchronized Audio-to-Video Generation with Diffu 8.0分前25% 4. Instilling an Active Mind in Avatars via Cognitive Simulatio 7.0分前25% 📋 论文详情 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 ...

ICLR 2026 - 音视频事件检测论文列表

ICLR 2026 - 音视频事件检测共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Entropy-Monitored Kernelized Token Distillation for Audio-Vi 8.5分前25% 📋 论文详情 🥇 Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression 🔥 8.5/10 | 前25% | #音视频事件检测 | #知识蒸馏 | #多模态模型 #音频分类 👥 作者与机构第一作者：Hyoungseob Park (Yale University, Amazon AGI 实习期间完成) 通讯作者：未明确说明（论文未标注通讯作者信息）作者列表： Hyoungseob Park (Yale University) Lipeng Ke (Amazon AGI) Pritish Mohapatra (Amazon AGI) Huajun Ying (Amazon AGI) Sankar Venkataraman (Amazon AGI) Alex Wong (Yale University) 💡 毒舌点评 ...

ICLR 2026 - 音视频深度伪造检测论文列表

ICLR 2026 - 音视频深度伪造检测共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Tell me Habibi, is it Real or Fake? 8.5分前25% 📋 论文详情 🥇 Tell me Habibi, is it Real or Fake? 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未明确标注，但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评 ...

ICLR 2026 - 音视频联合推理论文列表

ICLR 2026 - 音视频联合推理共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning E 7.0分前25% 📋 论文详情 🥇 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation ✅ 7.0/10 | 前25% | #音视频联合推理 | #基准测试 | #多模态模型 #大语言模型 👥 作者与机构第一作者：Jianghan Chao（中国人民大学高瓴人工智能学院）通讯作者：Ruihua Song（中国人民大学高瓴人工智能学院）作者列表：Jianghan Chao（中国人民大学高瓴人工智能学院），Jianzhang Gao（中国人民大学高瓴人工智能学院），Wenhui Tan（中国人民大学高瓴人工智能学院），Yuchong Sun（中国人民大学高瓴人工智能学院），Ruihua Song（中国人民大学高瓴人工智能学院），Liyun Ru（百川智能） 💡 毒舌点评亮点在于提出了一个设计严谨、维度全面的音视频联合推理评估框架，并巧妙地利用先进的LLM构建了自动化数据生成流水线，在保证质量的同时大幅降低了标注成本；短板在于其基准数据集完全来源于SF20K这一特定影视数据集，可能存在领域偏差，且论文主要贡献是评估基准而非新的建模方法，对推动模型架构本身创新的直接贡献有限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：公开。论文提供了项目页面链接 (https://jointavbench.github.io)，并说明JointAVBench数据集将在该页面发布。 Demo：未提及。复现材料：论文在附录中提供了生成流水线各阶段使用的详细Prompt模板（如图10-16），这对于复现其数据生成过程至关重要。论文中引用的开源项目：引用了多个开源模型（Qwen2.5-VL, Qwen2.5-Omni, Whisper-v3等）和工具（PySceneDetect）用于构建基准。整体开源计划：论文明确表示会发布数据集，但代码和模型权重的开源计划未提及。 📌 核心摘要 ...

ICLR 2026 - 音频分离论文列表

ICLR 2026 - 音频分离共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation 7.5分前25% 📋 论文详情 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试 👥 作者与机构第一作者：未说明（论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”）通讯作者：未说明作者列表：Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。（注：1指浙江大学，2指独立作者，具体实验室或部门未在文中提供） 💡 毒舌点评 ...

ICLR 2026 - 音频分类论文列表

ICLR 2026 - 音频分类共 6 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 MindMix: A Multimodal Foundation Model for Auditory Percepti 9.0分前10% 🥈 Resp-Agent: An Agent-Based System for Multimodal Respiratory 9.0分前10% 🥉 PACE: Pretrained Audio Continual Learning 9.0分前10% 4. Unmute the Patch Tokens: Rethinking Probing in Multi-Label A 7.5分前25% 5. SNAP-UQ: Self-supervised Next-Activation Prediction for Sing 7.5分前25% 6. Better Together: Leveraging Unpaired Multimodal Data for Str 7.0分前25% 📋 论文详情 🥇 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习 ...