ICLR 2026 - 空间音频 论文列表

ICLR 2026 - 空间音频 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Langu 8.0分 前25% 📋 论文详情 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习 👥 作者与机构 第一作者:未说明(论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute电气与计算机工程系) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 105 words

ICLR 2026 - 脑编码 论文列表

ICLR 2026 - 脑编码 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response 9.5分 前10% 📋 论文详情 🥇 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 👥 作者与机构 第一作者:Stéphane d‘Ascoli(Meta AI) 通讯作者:未说明 作者列表:Stéphane d‘Ascoli(Meta AI)、Jérémy Rapin(Meta AI)、Yohann Benchetrit(Meta AI)、Hubert Banville(Meta AI)、Jean-Rémi King(Meta AI) 💡 毒舌点评 亮点在于其工程与科学的完美结合:它不仅是竞赛刷榜利器,更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用,为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖(80小时/被试fMRI,128 GPU特征提取)以及仅在4名被试上验证的结论,这在一定程度上限制了其普适性的即时说服力。 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 97 words

ICLR 2026 - 视频描述生成 论文列表

ICLR 2026 - 视频描述生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal O 8.5分 前25% 📋 论文详情 🥇 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐 👥 作者与机构 第一作者:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学) 通讯作者:Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学) 作者列表:Xinlong Chen(快手技术 Kling 团队,中国科学院自动化研究所 NLPR,中国科学院大学)、Yue Ding(中国科学院自动化研究所 NLPR,中国科学院大学)、Weihong Lin(快手技术 Kling 团队)、Jingyun Hua(快手技术 Kling 团队)、Linli Yao(北京大学)、Yang Shi(北京大学)、Bozhou Li(北京大学)、Qiang Liu(中国科学院自动化研究所 NLPR,中国科学院大学)、Yuanxing Zhang(快手技术 Kling 团队)、Pengfei Wan(快手技术 Kling 团队)、Liang Wang(中国科学院自动化研究所 NLPR,中国科学院大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 187 words

ICLR 2026 - 视频摘要 论文列表

ICLR 2026 - 视频摘要 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TripleSumm: Adaptive Triple-Modality Fusion for Video Summar 8.5分 前25% 📋 论文详情 🥇 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力 👥 作者与机构 第一作者:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学)(表示同等贡献) 通讯作者:Yoori Oh†(首尔大学), Joonseok Lee†(首尔大学)(†表示通讯作者) 作者列表:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学), Yejin Kim(首尔大学), Yoori Oh(首尔大学), Joonseok Lee(首尔大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 103 words

ICLR 2026 - 视频生成 论文列表

ICLR 2026 - 视频生成 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Ali 7.5分 前25% 🥈 Stable Video Infinity: Infinite-Length Video Generation with 7.0分 前25% 📋 论文详情 🥇 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制 👥 作者与机构 第一作者:Zhenzhi Wang*(香港中文大学) 通讯作者:论文中未明确标注通讯作者 作者列表:Zhenzhi Wang(香港中文大学)、Jiaqi Yang(字节跳动)、Jianwen Jiang*B(字节跳动)、Chao Liang(字节跳动)、Gaojie Lin(字节跳动)、Zerong Zheng(字节跳动)、Ceyuan Yang(字节跳动)、Yuan Zhang(字节跳动)、Mingyuan Gao(字节跳动)、Dahua Lin(香港中文大学) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 171 words

ICLR 2026 - 语音分离 论文列表

ICLR 2026 - 语音分离 共 3 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation 7.5分 前25% 🥈 Efficient Audio-Visual Speech Separation with Discrete Lip S 7.5分 前25% 🥉 Knowing When to Quit: Probabilistic Early Exits for Speech S 7.0分 前25% 📋 论文详情 🥇 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation ✅ 7.5/10 | 前25% | #语音分离 | #强化学习 | #多模态模型 #对比学习 👥 作者与机构 第一作者:Zihan Zhang (Zhejiang University) 通讯作者:Tao Jin (Zhejiang University) 作者列表:Zihan Zhang (Zhejiang University), Xize Cheng (Zhejiang University), Zhennan Jiang (Institute of Automation, Chinese Academy of Sciences), Dongjie Fu (Zhejiang University), Jingyuan Chen (Zhejiang University), Zhou Zhao (Zhejiang University), Tao Jin (Zhejiang University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 4 min · 708 words

ICLR 2026 - 语音合成 论文列表

ICLR 2026 - 语音合成 共 10 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 9.0分 前10% 🥈 VibeVoice: Expressive Podcast Generation with Next-Token Dif 8.5分 前10% 🥉 SpeechJudge: Towards Human-Level Judgment for Speech Natural 8.5分 前10% 4. FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS 8.0分 前25% 5. Toward Complex-Valued Neural Networks for Waveform Generatio 8.0分 前25% 6. From Natural Alignment to Conditional Controllability in Mul 8.0分 前25% 7. Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Re 8.0分 前25% 8. Gogo: Group-wise granularity-ordered codec for stable and ef 7.5分 前25% 9. Continuous Audio Language Models 7.0分 前25% 10. MambaVoiceCloning: Efficient and Expressive Text-to-Speech v 6.5分 前50% 📋 论文详情 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 🔥 9.0/10 | 前10% | #语音合成 | #自监督学习 | #流匹配 #多语言 ...

2026-05-04 · 更新于 2026-05-22 · 8 min · 1679 words

ICLR 2026 - 语音合成评估 论文列表

ICLR 2026 - 语音合成评估 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality 7.5分 前25% 📋 论文详情 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。 🔗 开源详情 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。 Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 198 words

ICLR 2026 - 语音增强 #对抗样本 论文列表

ICLR 2026 - 语音增强 #对抗样本 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Are Deep Speech Denoising Models Robust to Adversarial Noise 8.5分 前25% 📋 论文详情 🥇 Are Deep Speech Denoising Models Robust to Adversarial Noise? 🔥 8.5/10 | 前25% | #语音增强 #对抗样本 | #信号处理 | #语音增强 #对抗样本 👥 作者与机构 第一作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 通讯作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 作者列表:Will Schwarzer(马萨诸塞大学阿默斯特分校)、Philip S. Thomas(马萨诸塞大学阿默斯特分校)、Andrea Fanelli(Dolby Laboratories)、Xiaoyu Liu(Meta) 💡 毒舌点评 论文将音频对抗攻击的研究从简单的扰动约束推进到了考虑真实声学环境(模拟过空传播)和严格心理声学掩蔽的实用化设定,这是一项重要且扎实的安全研究。然而,攻击的成功高度依赖于白盒梯度访问,且论文坦承通用对抗扰动和跨模型迁移基本无效,这限制了其直接展示的“威胁”的即时实用性,更像是一份详尽的系统性风险报告。 🔗 开源详情 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 131 words

ICLR 2026 - 语音增强 论文列表

ICLR 2026 - 语音增强 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 SpeechOp: Inference-Time Task Composition for Generative Spe 7.5分 前25% 📋 论文详情 🥇 SpeechOp: Inference-Time Task Composition for Generative Speech Processing ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习 👥 作者与机构 第一作者:Justin Lovelace(Cornell University) 通讯作者:未明确说明(论文作者来自Cornell University和Adobe Research,从贡献描述看,Adobe Research团队的Rithesh Kumar, Jiaqi Su, Ke Chen, Zeyu Jin可能承担更多指导角色,但论文未明确标注通讯作者) 作者列表: Justin Lovelace(Cornell University) Rithesh Kumar(Adobe Research) Jiaqi Su(Adobe Research) Ke Chen(Adobe Research) Kilian Q Weinberger(Cornell University) Zeyu Jin(Adobe Research) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 105 words