Iclr-2026

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #流匹配 #基准测试 #数据集 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Yuhang He (Microsoft Research) 通讯作者：Yuhang He (Microsoft Research) 作者列表：Yuhang He (Microsoft Research), He Liang (University of Oxford, Department of Computer Science), Yash Jain (Microsoft Research), Andrew Markham (Microsoft Research), Vibhav Vineet (Microsoft Research) 💡 毒舌点评亮点：本文核心贡献在于为“关系感知文本到音频生成”这一被忽视的子任务，系统性地构建了两个大规模、高质量的专用数据集（AudioEventSet 和 AudioRelSet）和一套完整的评测基准，精准填补了领域空白。短板：论文的“方法”部分更多是基于现有基线模型（如TangoFlux）进行评测和简单的微调实验，缺乏一个针对关系感知生成提出全新、完整架构的深度技术方案，创新性更偏向数据与评测而非模型本身。 ...

Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

📄 Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? #音乐生成 #端到端 #预训练 #迁移学习 ✅ 7.0/10 | 前25% | #音乐生成 | #端到端 | #预训练 #迁移学习学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zijian Zhao（香港科技大学）通讯作者：Xiaoyu Zhang（香港城市大学）作者列表：Zijian Zhao（香港科技大学）、Dian Jin（香港理工大学）、Zijing Zhou（香港大学）、Xiaoyu Zhang（香港城市大学） 💡 毒舌点评亮点：论文开创性地将自动舞台灯光控制（ASLC）从“规则映射”问题重新定义为“生成任务”，并基于BART设计了端到端的Skip-BART模型，其生成效果在人工评估中已接近专业灯光师水平，概念和方法均有新意。短板：尽管开创了新范式，但其构建的RPMC-L2数据集仅包含约700个摇滚/朋克/金属风格的现场演出片段，规模和多样性有限，这严重制约了模型在更广泛音乐类型和复杂舞台场景下的泛化能力上限。 🔗 开源详情代码：是，提供完整代码仓库链接：https://github.com/RS2002/Skip-BART 模型权重：是，提供训练好的模型参数供下载。数据集：是，提供了处理后的数据集（RPMC-L2）下载链接。 Demo：论文中未提及在线演示。复现材料：论文在附录中提供了详细的预训练配置（附录A）、实验设置（附录B）和数据集构建细节（附录C），包括所有超参数、损失函数权重和数据处理流程，复现信息非常充分。引用的开源项目：论文依赖并引用了多个开源工具/模型，包括：PianoBART（用于迁移学习的骨干）、OpenL3（音频特征提取）、PyTorch（深度学习框架），以及用于生成对比歌曲的Suno。 📌 核心摘要问题：现有的自动舞台灯光控制（ASLC）大多依赖将音乐分类到有限类别后映射到预设灯光模式，导致结果公式化、单调且缺乏合理性。作者认为灯光控制本质上是艺术创作过程，而非简单的规则映射。方法：论文首次提出将ASLC视为一个生成任务，并提出了端到端深度学习模型 Skip-BART。该模型以BART为骨干，使用OpenL3提取音频特征，通过离散嵌入处理灯光数据（HSV色彩空间的色相H和明度V）。其核心创新是引入跳连接机制，显式对齐音乐帧与灯光帧，以增强时序对应关系。训练过程采用掩码语言模型（MLM）预训练和端到端微调，并结合了迁移学习（PianoBART）和受限随机温度控制（RSTC）采样。创新：与传统分类-映射范式相比，新在：(1) 将ASLC建模为序列到序列的生成问题；(2) 设计了包含跳连接的Skip-BART架构；(3) 构建了首个专门的ASLC数据集RPMC-L2。实验结果：在自建的RPMC-L2数据集上，Skip-BART在定量指标（RMSE, MAE, corr(|Δ|)）上显著优于规则基线方法（见下表）。人工评估（38名参与者）显示，Skip-BART的总体评分（M=4.35）与真实灯光师（M=4.51）无显著差异（p=0.724），但显著高于规则方法（M=2.67，p<0.001）。 | 方法 | RMSE↓ (Hue) | RMSE↓ (Value) | MAE↓ (Hue) | MAE↓ (Value) | corr(|Δ|)↑ (Hue) | corr(|Δ|)↑ (Value) | | :— | :— | :— | :— | :— | :— | :— | | Rule-based | 48.67 | 93.39 | 43.43 | 86.55 | 0.50 | 0.58 | | Skip-BART | 36.13 | 60.74 | 28.72 | 51.27 | 0.88 | 2.94 | ...

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #语音情感识别 #多模态模型 #偏好优化 #基准测试 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #偏好优化 | #多模态模型 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ashutosh Chaubey（南加州大学创新技术研究所）通讯作者：Mohammad Soleymani（南加州大学创新技术研究所）作者列表：Ashutosh Chaubey（南加州大学创新技术研究所）、Jiacheng Pang（南加州大学创新技术研究所）、Maksim Siniukov（南加州大学创新技术研究所）、Mohammad Soleymani（南加州大学创新技术研究所） 💡 毒舌点评本文提出的 EmoReAlM 基准测试系统性地揭示了现有多模态模型在情感推理上“瞎扯淡”的两种主要模式（虚假关联与幻觉），其 AVEm-DPO 优化方法针对性地解决了问题，并在零样本设定下取得了显著提升，是一项扎实且完整的工作。短板在于，其优化方法和基准测试的构建高度依赖 GPT-4o 等大模型，虽然进行了人工验证，但这使得整个工作在一定程度上建立在“模型评价模型”的基础上，其上限可能受制于标注模型自身的理解能力，且引入了难以完全消除的偏差。 📌 核心摘要要解决的问题：现有多模态大语言模型在进行音频视觉情感推理时，存在两大核心缺陷：一是将情绪错误地归因于无关的音视频线索（推理错误），二是为了合理化情绪而“编造”出不存在的音视频线索（感知错误/幻觉）。后者主要由语言模型的文本先验偏差导致。方法核心：论文提出了一个两阶段方案。首先，构建了名为 EmoReAlM 的专用基准测试（包含4000个人工验证的多选题），用于系统评估模型在关联、一致性及幻觉等方面的表现。其次，提出了 AVEm-DPO 技术，这是一种直接偏好优化方法，通过构建两种偏好对来对齐模型响应：a) 基于提示的多模态输入偏好（Prompt-based Modality Preference），确保模型关注正确的模态；b) 基于情感的响应偏好（Emotion-based Response Preference），区分正确、无关和幻觉的响应。此外，引入了文本先验去偏（Text Prior Debiasing）正则化项，抑制模型仅凭文本线索生成响应。与已有方法相比新在哪里：评估：超越了现有情感推理或幻觉基准，提供了一个标准化、无需外部LLM评估的、专注于音视觉情感理解中特定错误的测试集。优化：在应用 DPO 到多模态领域时，创新性地结合了“基于提示的模态偏好”和“文本先验去偏”，比通用的 Naive-DPO 和 Vista-DPO 更具针对性。主要实验结果：在零样本设定下，AVEm-DPO 显著提升了两个基线模型（Our base, EmotionLLaMA⋆）的性能。在提出的 EmoReAlM 基准上，相对性能提升达 6-19%。在现有情感识别数据集（DFEW, RAVDESS, MER2023）和推理数据集（EMER）上也取得了最优或极具竞争力的结果。关键结果对比如下表所示：模型 EmoReAlM (平均准确率) DFEW (UAR) RAVDESS (UAR) MER2023 (F1) EMER (Clue) Our base (基线) 65.1% 56.78% 53.59% 89.19% 5.63 + AVEm-DPO 83.3% 58.54% 58.66% 92.18% 6.37 EmotionLLaMA⋆ (基线) 63.8% 54.89% 52.59% 90.01% 5.78 + AVEm-DPO 80.1% 57.06% 56.21% 91.68% 6.02 Qwen 2.5 Omni (SOTA对比) 70.0% 46.94% 32.88% 79.72% 5.85 实际意义：该工作为构建可靠、可解释的社会AI代理提供了更精确的评估工具（EmoReAlM）和更有效的训练方法（AVEm-DPO），有助于减少多模态模型在情感理解中的不准确性，提升人机交互的可靠性。主要局限性：1) EmoReAlM 基准测试源于 DFEW 数据集，可能继承其文化偏见；2) 模型在识别“厌恶”等复杂/模糊情绪时表现仍不佳；3) 论文承认在缓解虚假音频线索关联方面仍有改进空间。 🏗️ 模型架构本文的核心贡献并非提出一个全新的端到端模型架构，而是提出了一种训练方法（AVEm-DPO）来提升现有音频视觉多模态大语言模型（MLLMs）的性能。其作用的对象是两个参考基线模型：“Our base”和“EmotionLLaMA⋆”。因此，架构描述将围绕AVEm-DPO如何作用于基础模型展开。 ...

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #预训练 #自监督学习 #模型比较 #基准测试 ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Marius Miron（Earth Species Project），David Robinson（Earth Species Project）（共同贡献）通讯作者：Marius Miron, David Robinson（Earth Species Project）作者列表：Marius Miron（Earth Species Project），David Robinson（Earth Species Project），Milad Alizadeh（Earth Species Project），Ellen Gilsenan-McMahon（Earth Species Project），Gagan Narula（Earth Species Project），Emmanuel Chemla（Earth Species Project），Maddie Cusimano（Earth Species Project），Felix Effenberger（Earth Species Project），Masato Hagiwara（Earth Species Project），Benjamin Hoffman（Earth Species Project），Sara Keen（Earth Species Project），Diane Kim（Earth Species Project），Jane Lawton（Earth Species Project），Jen-Yu Liu（Earth Species Project），Aza Raskin（Earth Species Project），Olivier Pietquin（Earth Species Project），Matthieu Geist（Earth Species Project）。 💡 毒舌点评亮点在于实验设计极其严谨和全面，如同为生物声学编码器领域做了一次“高考”，系统性地比较了各种技术路线，得出了可操作的“最优训练配方”。短板在于，其核心贡献是实证结论而非提出一种全新的、具有独创性的模型架构，更像是一个高质量的“工程最佳实践”指南。 ...

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #多模态模型 #强化学习 #视频描述生成 #音频视觉对齐 #监督微调 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）通讯作者：Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）作者列表：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）、Yue Ding（中国科学院自动化研究所 NLPR，中国科学院大学）、Weihong Lin（快手技术 Kling 团队）、Jingyun Hua（快手技术 Kling 团队）、Linli Yao（北京大学）、Yang Shi（北京大学）、Bozhou Li（北京大学）、Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）、Yuanxing Zhang（快手技术 Kling 团队）、Pengfei Wan（快手技术 Kling 团队）、Liang Wang（中国科学院自动化研究所 NLPR，中国科学院大学） 💡 毒舌点评亮点：论文没有满足于简单的多模态拼接，而是通过精心设计的 checklist 和 dialogue 奖励函数，将“音视频事件在时间轴上对齐”这一核心需求显式地融入了强化学习目标，这种针对具体问题定制 RL 奖励的思路比通用 GRPO 应用更有价值。短板：整个流程高度依赖强大的教师模型（如 Gemini-2.5-Pro）来构建 SFT 数据和评估奖励，这使得方法的泛用性和在资源受限场景下的可行性存疑，且可能隐含了将教师模型偏见传递给学生模型的风险。 ...

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

📄 Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models #多模态模型 #音频分类 #自监督学习 #迁移学习 #少样本学习 ✅ 7.0/10 | 前25% | #音频分类 | #自监督学习 #迁移学习 | #多模态模型 #自监督学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Sharut Gupta (MIT CSAIL) 通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Sharut Gupta (MIT CSAIL), Shobhita Sundaram (MIT CSAIL), Chenyu Wang (MIT CSAIL), Stefanie Jegelka (TU Munich, MIT CSAIL), Phillip Isola (MIT CSAIL) 💡 毒舌点评亮点在于其理论部分严谨地证明了无配对多模态数据在信息论层面的价值，为“跨模态知识蒸馏无需配对”提供了坚实论据，实验也相当全面。短板是UML的框架（共享权重，交替训练）相对直观，并非一个复杂的“新模型”，且其实验验证主要围绕视觉分类，对理论承诺的“适用于音频”只做了初步展示，深度稍显不足。 ...

Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval

📄 Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval #音频检索 #最优传输 #对比学习 #跨模态 #鲁棒性 ✅ 7.5/10 | 前25% | #音频检索 | #最优传输 | #对比学习 #跨模态学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wenqi Guo（上海交通大学）通讯作者：Shikui Tu（上海交通大学），Lei Xu（上海交通大学，广东省人工智能与数字经济实验室（深圳））作者列表：Wenqi Guo（上海交通大学）、Shikui Tu（上海交通大学）、Lei Xu（上海交通大学，广东省人工智能与数字经济实验室（深圳）） 💡 毒舌点评亮点：论文从“特征通道可靠性”这一细粒度视角切入，用最优传输的语言重新定义了跨模态对齐问题，理论推导（集中界分析）为小批次下的不稳定性提供了有说服力的解释，这比单纯堆砌模块更显功力。短板：虽然实验全面，但核心创新（双层对齐+可靠性边际）的物理直觉略显复杂，且声称“特征级OT计算开销可忽略”这一论断，在真实部署场景（如视频检索、超长音频）下的泛化能力值得商榷。 🔗 开源详情代码：论文中未提及代码链接。附录A提供了伪代码，但未指明完整实现代码的发布渠道。模型权重：未提及。数据集：使用了公开的AudioCaps、Clotho、ESC-50数据集，但论文中未提供获取链接或特殊处理说明。 Demo：未提及。复现材料：论文附录提供了极其详细的超参数设置（表6）、训练算法伪代码、理论证明、数据集统计、评估指标定义等，复现所需的信息非常充分。论文中引用的开源项目：未明确列出。提到了使用预训练的编码器（如ResNet38, BERT, Beats等），但未指定具体版本或来源。总体评估：论文具备高质量的复现指南，但缺少最直接的开源代码和权重链接，对快速复现构成障碍。论文中未提及明确的开源计划。 📌 核心摘要问题：现有的跨模态检索方法（如对比学习、逆最优传输IOT）主要进行实例级对齐，隐含假设所有嵌入维度同等重要。在小批次训练中，这种假设会放大噪声和偏差，导致对齐信号不稳定。方法核心：提出DART（双层对齐鲁棒传输）框架。它在实例级保留IOT目标以对齐样本对，同时引入特征级正则化。该正则化将每个特征维度视为一个分布，并使用非平衡Wasserstein距离（UWD）来对齐音频和文本的特征分布。此外，设计了可靠性感知边际（RAM），基于方差、峰度和跨模态相关性动态加权特征通道，抑制噪声通道。与已有方法相比新在哪里：1）超越单一的实例级对齐，增加特征级分布对齐，提供细粒度的正则化。2）RAM能自适应地识别并强调跨模态一致且稳定的语义通道。3）提供了理论分析，证明实例级损失受最大距离控制，而特征级损失受传输计划的Frobenius范数控制，后者在小批次下更鲁棒。主要实验结果：在AudioCaps和Clotho两个主要基准上，DART在多个编码器设置下均达到或超越SOTA。例如，在AudioCaps（ResNet38+BERT）上，相比最强基线Luong et al. (2024)，文本到音频检索R@1提升1.1个百分点，音频到文本提升4.5个百分点。在模拟小批次（k=8, 32）和噪声/半监督标签（20%，40%）的严苛条件下，DART展现出显著更强的鲁棒性。详见下表。条件方法文本->音频 (R@1) 音频->文本 (R@1) 标准设置 (Batch=256, AuC) Luong et al. (2024) 39.10 49.94 DART w/ RAM 41.67 55.27 小批次 (Batch=8, AuC) Luong et al. (2024) 20.44 32.91 DART (LIOT+LUWD) 24.24 35.21 40%噪声标签 (Batch=32, AuC) Luong et al. (2024) 26.20 34.37 DART 29.67 37.09 零样本声音事件检测 (ESC-50) IOT (Luong et al.) - 79.25 (R@1) DART - 80.75 (R@1) 实际意义：该方法为在资源受限（小批次、标注稀缺）或噪声数据环境下的跨模态检索提供了更鲁棒的解决方案，具有实际部署价值。其思想可推广至其他跨模态任务（如图文检索已验证）。主要局限性：特征级OT的计算复杂度随特征维度平方增长，虽在文中声称开销小，但在超高维嵌入或极大批次下可能成为瓶颈；理论分析基于一系列理想化假设，与实际情况可能有差距。 🏗️ 模型架构 DART是一个端到端的跨模态对齐框架，其核心在于联合优化两个损失：实例级损失（$\mathcal{L}{IOT}$）和特征级损失（$\mathcal{L}{UWD-R}$）。整体流程如下： ...

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #音乐生成 #多任务学习 #扩散模型 #解耦表示学习 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者：Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评亮点：巧妙地将演奏渲染（EPR）和乐谱转录（APT）这两个互逆任务统一到一个解耦表示学习的框架中，不仅提升了两个任务的性能，还为可控的音乐表达（风格迁移、自动推荐）开辟了新路径，理论动机清晰，工程实现完整。短板：模型本身规模较大（188M参数），且PSR模块需要单独训练和推理，增加了部署复杂性；实验数据主要局限于古典钢琴音乐，其在更广泛音乐流派（如爵士、流行）上的泛化能力未得到验证。 ...

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #语音大模型 #微调 #自回归模型 #实时处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #微调 | #语音大模型 #自回归模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yi-Jen Shih（The University of Texas at Austin, Meta Superintelligence Labs）通讯作者：Michael L. Seltzer（Meta Superintelligence Labs）作者列表：Yi-Jen Shih（The University of Texas at Austin, Meta Superintelligence Labs）、Desh Raj（Meta Superintelligence Labs）、Chunyang Wu（Meta Superintelligence Labs）、Wei Zhou（Meta Superintelligence Labs）、SK Bong（Meta Superintelligence Labs）、Yashesh Gaur（Meta Superintelligence Labs）、Jay Mahadeokar（Meta Superintelligence Labs）、Ozlem Kalinli（Meta Superintelligence Labs）、Michael L. Seltzer（Meta Superintelligence Labs） 💡 毒舌点评这篇论文最大的亮点在于将“边听边想”从一个人机交互概念落实为一套可训练、可控制的技术方案，尤其是提出的“问题完整度”指标，巧妙地将语义完备性与生成时机联系起来。然而，一个显眼的短板是，其核心指标“问题完整度”的计算严重依赖于外部LLM（如Llama-3-8B-Chat）的预测概率，这在部署时可能带来额外的计算开销和延迟，且该指标的泛化能力（是否对不同LLM稳定）并未充分验证。 ...

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #多模态模型 #音视频 🔥 8.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Reza Pourreza（Qualcomm AI Research）通讯作者：未明确说明作者列表：Reza Pourreza（Qualcomm AI Research）， Rishit Dagli（University of Toronto / Qualcomm AI Research）， Apratim Bhattacharyya（Qualcomm AI Research）， Sunny Panchal（Qualcomm AI Research）， Guillaume Berger（Qualcomm AI Research）， Roland Memisevic（Qualcomm AI Research） 💡 毒舌点评论文的亮点在于精准地抓住了当前多模态大模型从“离线理解”走向“实时交互”的关键瓶颈，并构建了一个极具针对性的真实世界问答基准，为社区指明了明确的改进方向。然而，其短板在于数据集规模相对有限（2900条），且核心评估指标依赖LLM judge，可能引入新的评估偏差，而提出的“流式基线”方法相对简单，更多是概念验证而非技术突破。 ...