ICLR 2026 - 模型评估 论文列表

ICLR 2026 - 模型评估 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy 9.5分 前10% 🥈 MAPSS: Manifold-based Assessment of Perceptual Source Separa 8.5分 前25% 📋 论文详情 🥇 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models 🔥 9.5/10 | 前10% | #模型评估 | #基准测试 | #语音大模型 #数据集 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳)) 通讯作者:未明确说明(根据惯例和贡献推断,Zhizheng Wu可能性较大) 作者列表:Yuxiang Wang¹, Hongyu Liu¹, Dekun Chen¹, Xueyao Zhang¹, Zhizheng Wu¹,²,³,⁴ ¹ 香港中文大学(深圳) ² 深圳大数据研究院 ³ 澳门城市大学 ⁴ Amphion Technology Co., Ltd.(星尘智能科技有限公司) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 281 words

ICLR 2026 - 生态计算 论文列表

ICLR 2026 - 生态计算 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 MIAM: Modality Imbalance-Aware Masking for Multimodal Ecolog 8.5分 前25% 📋 论文详情 🥇 MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications 🔥 8.5/10 | 前25% | #生态计算 | #数据增强 | #多模态模型 #鲁棒性 👥 作者与机构 第一作者:Robin Zbinden(洛桑联邦理工学院,EPFL) 通讯作者:Robin Zbinden(robin.zbinden@epfl.ch,洛桑联邦理工学院,EPFL) 作者列表: Robin Zbinden(洛桑联邦理工学院,EPFL,*共同第一作者) Wesley Monteith-Finas(洛桑联邦理工学院,EPFL,*共同第一作者) Gencer Sumbul(洛桑联邦理工学院,EPFL) Nina van Tiel(洛桑联邦理工学院,EPFL) Chiara Vanalli(洛桑联邦理工学院,EPFL) Devis Tuia(洛桑联邦理工学院,EPFL) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 130 words

ICLR 2026 - 生成模型 论文列表

ICLR 2026 - 生成模型 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 DiVeQ: Differentiable Vector Quantization Using the Reparame 8.0分 前25% 🥈 AUHead: Realistic Emotional Talking Head Generation via Acti 7.5分 前25% 📋 论文详情 🥇 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick 🔥 8.0/10 | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码 👥 作者与机构 第一作者:Mohammad Hassan Vali(ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland) 通讯作者:未明确说明(论文提供了三位作者的共同邮箱,未指定单独通讯作者) 作者列表:Mohammad Hassan Vali(ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland)、Tom Bäckström(Department of Information and Communications Engineering, Aalto University, Finland)、Arno Solin(ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 272 words

ICLR 2026 - 生物声学 论文列表

ICLR 2026 - 生物声学 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 AVEX: What Matters for Animal Vocalization Encoding 7.0分 前25% 📋 论文详情 🥇 AVEX: What Matters for Animal Vocalization Encoding ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较 👥 作者与机构 第一作者:Marius Miron(Earth Species Project),David Robinson(Earth Species Project)(共同贡献) 通讯作者:Marius Miron, David Robinson(Earth Species Project) 作者列表:Marius Miron(Earth Species Project),David Robinson(Earth Species Project),Milad Alizadeh(Earth Species Project),Ellen Gilsenan-McMahon(Earth Species Project),Gagan Narula(Earth Species Project),Emmanuel Chemla(Earth Species Project),Maddie Cusimano(Earth Species Project),Felix Effenberger(Earth Species Project),Masato Hagiwara(Earth Species Project),Benjamin Hoffman(Earth Species Project),Sara Keen(Earth Species Project),Diane Kim(Earth Species Project),Jane Lawton(Earth Species Project),Jen-Yu Liu(Earth Species Project),Aza Raskin(Earth Species Project),Olivier Pietquin(Earth Species Project),Matthieu Geist(Earth Species Project)。 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 193 words

ICLR 2026 - 神经网络架构 论文列表

ICLR 2026 - 神经网络架构 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Deep Learning with Learnable Product-Structured Activations 8.0分 前10% 📋 论文详情 🥇 Deep Learning with Learnable Product-Structured Activations 🔥 8.0/10 | 前10% | #神经网络架构 | #神经网络架构 | #隐式神经表示 #深度学习理论 👥 作者与机构 第一作者:Saanjali Maharaj(University of Toronto) 通讯作者:Prasanth B. Nair(University of Toronto) 作者列表:Saanjali Maharaj(University of Toronto)、Prasanth B. Nair(University of Toronto) 💡 毒舌点评 亮点在于LRNN架构将低秩函数分解思想巧妙地引入深度学习,其理论分析严谨(证明了通用逼近和维度诅咒缓解),并且实验设计得极为全面,从ImageNet图像到PDE求解,几乎“打穿”了隐式表示领域的主流基准。短板则是,尽管架构思想优美,但其每个“神经元”内部实际嵌套了一个小型MLP(用于参数化一元函数),这无疑显著增加了计算复杂度和训练时间,论文在性能与效率的权衡上讨论稍显不足,可能限制其在大规模实时应用中的部署。 🔗 开源详情 代码:论文明确提供了公开的代码仓库链接:https://github.com/dacelab/lrnn。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用了公开的数据集(ImageNet, DIV2K, GTZAN, LibriSpeech等),但论文中未说明是否提供处理后的特定任务数据集。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的复现信息,包括: 所有实验的具体超参数设置(学习率、调度器、模型尺寸等)。 架构的实现细节(如组件MLP的结构、LayerNorm的使用、方差控制缩放)。 各类消融研究的设计和结果。 训练硬件信息(单张RTX 4090 GPU)。 论文中引用的开源项目:论文依赖并对比了多个开源基准模型,包括SIREN、SPDER、WIRE、Gaussian Activated Networks等的官方实现。其实现基于PyTorch框架。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 97 words

ICLR 2026 - 空间音频 论文列表

ICLR 2026 - 空间音频 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Langu 8.0分 前25% 📋 论文详情 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习 👥 作者与机构 第一作者:未说明(论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute电气与计算机工程系) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 105 words

ICLR 2026 - 脑编码 论文列表

ICLR 2026 - 脑编码 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response 9.5分 前10% 📋 论文详情 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 👥 作者与机构 第一作者:Stéphane d‘Ascoli(Meta AI) 通讯作者:未说明 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI) 💡 毒舌点评 亮点在于其工程与科学的完美结合:它不仅是竞赛刷榜利器,更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用,为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖(80小时/被试fMRI,128 GPU特征提取)以及仅在4名被试上验证的结论,这在一定程度上限制了其普适性的即时说服力。 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 97 words

ICLR 2026 - 视频描述生成 论文列表

ICLR 2026 - 视频描述生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal O 8.5分 前25% 📋 论文详情 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐 👥 作者与机构 第一作者:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学) 通讯作者:Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学) 作者列表:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学)、Yue Ding(中国科学院自动化研究所 NLPR,中国科学院大学)、Weihong Lin(快手技术 Kling 团队)、Jingyun Hua(快手技术 Kling 团队)、Linli Yao(北京大学)、Yang Shi(北京大学)、Bozhou Li(北京大学)、Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学)、Yuanxing Zhang(快手技术 Kling 团队)、Pengfei Wan(快手技术 Kling 团队)、Liang Wang(中国科学院自动化研究所 NLPR,中国科学院大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 187 words

ICLR 2026 - 视频摘要 论文列表

ICLR 2026 - 视频摘要 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TripleSumm: Adaptive Triple-Modality Fusion for Video Summar 8.5分 前25% 📋 论文详情 🥇 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力 👥 作者与机构 第一作者:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学)(表示同等贡献) 通讯作者:Yoori Oh†(首尔大学), Joonseok Lee†(首尔大学)(†表示通讯作者) 作者列表:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学), Yejin Kim(首尔大学), Yoori Oh(首尔大学), Joonseok Lee(首尔大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 103 words

ICLR 2026 - 视频生成 论文列表

ICLR 2026 - 视频生成 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Ali 7.5分 前25% 🥈 Stable Video Infinity: Infinite-Length Video Generation with 7.0分 前25% 📋 论文详情 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制 👥 作者与机构 第一作者:Zhenzhi Wang*(香港中文大学) 通讯作者:论文中未明确标注通讯作者 作者列表:Zhenzhi Wang(香港中文大学)、Jiaqi Yang(字节跳动)、Jianwen Jiang*B(字节跳动)、Chao Liang(字节跳动)、Gaojie Lin(字节跳动)、Zerong Zheng(字节跳动)、Ceyuan Yang(字节跳动)、Yuan Zhang(字节跳动)、Mingyuan Gao(字节跳动)、Dahua Lin(香港中文大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 171 words