Iclr-2026

ICLR 2026 - 模型评估论文列表

ICLR 2026 - 模型评估共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy 9.5分前10% 🥈 MAPSS: Manifold-based Assessment of Perceptual Source Separa 8.5分前25% 📋 论文详情 🥇 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models 🔥 9.5/10 | 前10% | #模型评估 | #基准测试 | #语音大模型 #数据集 👥 作者与机构第一作者：Yuxiang Wang（香港中文大学（深圳））通讯作者：未明确说明（根据惯例和贡献推断，Zhizheng Wu可能性较大）作者列表：Yuxiang Wang¹, Hongyu Liu¹, Dekun Chen¹, Xueyao Zhang¹, Zhizheng Wu¹,²,³,⁴ ¹ 香港中文大学（深圳） ² 深圳大数据研究院 ³ 澳门城市大学 ⁴ Amphion Technology Co., Ltd.（星尘智能科技有限公司） 💡 毒舌点评 ...

ICLR 2026 - 生态计算论文列表

ICLR 2026 - 生态计算共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 MIAM: Modality Imbalance-Aware Masking for Multimodal Ecolog 8.5分前25% 📋 论文详情 🥇 MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications 🔥 8.5/10 | 前25% | #生态计算 | #数据增强 | #多模态模型 #鲁棒性 👥 作者与机构第一作者：Robin Zbinden（洛桑联邦理工学院，EPFL）通讯作者：Robin Zbinden（robin.zbinden@epfl.ch，洛桑联邦理工学院，EPFL）作者列表： Robin Zbinden（洛桑联邦理工学院，EPFL，*共同第一作者） Wesley Monteith-Finas（洛桑联邦理工学院，EPFL，*共同第一作者） Gencer Sumbul（洛桑联邦理工学院，EPFL） Nina van Tiel（洛桑联邦理工学院，EPFL） Chiara Vanalli（洛桑联邦理工学院，EPFL） Devis Tuia（洛桑联邦理工学院，EPFL） 💡 毒舌点评 ...

ICLR 2026 - 生成模型论文列表

ICLR 2026 - 生成模型共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 DiVeQ: Differentiable Vector Quantization Using the Reparame 8.0分前25% 🥈 AUHead: Realistic Emotional Talking Head Generation via Acti 7.5分前25% 📋 论文详情 🥇 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick 🔥 8.0/10 | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码 👥 作者与机构第一作者：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）通讯作者：未明确说明（论文提供了三位作者的共同邮箱，未指定单独通讯作者）作者列表：Mohammad Hassan Vali（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland）、Tom Bäckström（Department of Information and Communications Engineering, Aalto University, Finland）、Arno Solin（ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland） 💡 毒舌点评 ...

ICLR 2026 - 生物声学论文列表

ICLR 2026 - 生物声学共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 AVEX: What Matters for Animal Vocalization Encoding 7.0分前25% 📋 论文详情 🥇 AVEX: What Matters for Animal Vocalization Encoding ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较 👥 作者与机构第一作者：Marius Miron（Earth Species Project），David Robinson（Earth Species Project）（共同贡献）通讯作者：Marius Miron, David Robinson（Earth Species Project）作者列表：Marius Miron（Earth Species Project），David Robinson（Earth Species Project），Milad Alizadeh（Earth Species Project），Ellen Gilsenan-McMahon（Earth Species Project），Gagan Narula（Earth Species Project），Emmanuel Chemla（Earth Species Project），Maddie Cusimano（Earth Species Project），Felix Effenberger（Earth Species Project），Masato Hagiwara（Earth Species Project），Benjamin Hoffman（Earth Species Project），Sara Keen（Earth Species Project），Diane Kim（Earth Species Project），Jane Lawton（Earth Species Project），Jen-Yu Liu（Earth Species Project），Aza Raskin（Earth Species Project），Olivier Pietquin（Earth Species Project），Matthieu Geist（Earth Species Project）。 💡 毒舌点评 ...

ICLR 2026 - 神经网络架构论文列表

ICLR 2026 - 神经网络架构共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Deep Learning with Learnable Product-Structured Activations 8.0分前10% 📋 论文详情 🥇 Deep Learning with Learnable Product-Structured Activations 🔥 8.0/10 | 前10% | #神经网络架构 | #神经网络架构 | #隐式神经表示 #深度学习理论 👥 作者与机构第一作者：Saanjali Maharaj（University of Toronto）通讯作者：Prasanth B. Nair（University of Toronto）作者列表：Saanjali Maharaj（University of Toronto）、Prasanth B. Nair（University of Toronto） 💡 毒舌点评亮点在于LRNN架构将低秩函数分解思想巧妙地引入深度学习，其理论分析严谨（证明了通用逼近和维度诅咒缓解），并且实验设计得极为全面，从ImageNet图像到PDE求解，几乎“打穿”了隐式表示领域的主流基准。短板则是，尽管架构思想优美，但其每个“神经元”内部实际嵌套了一个小型MLP（用于参数化一元函数），这无疑显著增加了计算复杂度和训练时间，论文在性能与效率的权衡上讨论稍显不足，可能限制其在大规模实时应用中的部署。 🔗 开源详情代码：论文明确提供了公开的代码仓库链接：https://github.com/dacelab/lrnn。模型权重：论文中未提及公开预训练模型权重。数据集：使用了公开的数据集（ImageNet, DIV2K, GTZAN, LibriSpeech等），但论文中未说明是否提供处理后的特定任务数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了极其详尽的复现信息，包括：所有实验的具体超参数设置（学习率、调度器、模型尺寸等）。架构的实现细节（如组件MLP的结构、LayerNorm的使用、方差控制缩放）。各类消融研究的设计和结果。训练硬件信息（单张RTX 4090 GPU）。论文中引用的开源项目：论文依赖并对比了多个开源基准模型，包括SIREN、SPDER、WIRE、Gaussian Activated Networks等的官方实现。其实现基于PyTorch框架。 📌 核心摘要 ...

ICLR 2026 - 空间音频论文列表

ICLR 2026 - 空间音频共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Langu 8.0分前25% 📋 论文详情 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习 👥 作者与机构第一作者：未说明（论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者）通讯作者：未说明作者列表：Subrata Biswas（Worcester Polytechnic Institute电气与计算机工程系）、Mohammad Nur Hossain Khan（Worcester Polytechnic Institute电气与计算机工程系）、Bashima Islam（Worcester Polytechnic Institute电气与计算机工程系） 💡 毒舌点评 ...

ICLR 2026 - 脑编码论文列表

ICLR 2026 - 脑编码共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response 9.5分前10% 📋 论文详情 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未说明作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。 ...

ICLR 2026 - 视频描述生成论文列表

ICLR 2026 - 视频描述生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal O 8.5分前25% 📋 论文详情 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐 👥 作者与机构第一作者：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）通讯作者：Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）作者列表：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）、Yue Ding（中国科学院自动化研究所 NLPR，中国科学院大学）、Weihong Lin（快手技术 Kling 团队）、Jingyun Hua（快手技术 Kling 团队）、Linli Yao（北京大学）、Yang Shi（北京大学）、Bozhou Li（北京大学）、Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）、Yuanxing Zhang（快手技术 Kling 团队）、Pengfei Wan（快手技术 Kling 团队）、Liang Wang（中国科学院自动化研究所 NLPR，中国科学院大学） 💡 毒舌点评 ...

ICLR 2026 - 视频摘要论文列表

ICLR 2026 - 视频摘要共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 TripleSumm: Adaptive Triple-Modality Fusion for Video Summar 8.5分前25% 📋 论文详情 🥇 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力 👥 作者与机构第一作者：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）（表示同等贡献）通讯作者：Yoori Oh†（首尔大学）， Joonseok Lee†（首尔大学）（†表示通讯作者）作者列表：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）， Yejin Kim（首尔大学）， Yoori Oh（首尔大学）， Joonseok Lee（首尔大学） 💡 毒舌点评 ...

ICLR 2026 - 视频生成论文列表

ICLR 2026 - 视频生成共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Ali 7.5分前25% 🥈 Stable Video Infinity: Infinite-Length Video Generation with 7.0分前25% 📋 论文详情 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制 👥 作者与机构第一作者：Zhenzhi Wang*（香港中文大学）通讯作者：论文中未明确标注通讯作者作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang*B（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评 ...