Iclr-2026

ICLR 2026 - 语音识别 #语音合成论文列表

ICLR 2026 - 语音识别 #语音合成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Latent Speech-Text Transformer 7.0分前25% 📋 论文详情 🥇 Latent Speech-Text Transformer ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 👥 作者与机构第一作者：Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing )，工作于 Meta 期间完成。通讯作者：Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表： Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs )，工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评 ...

ICLR 2026 - 语音识别论文列表

ICLR 2026 - 语音识别共 9 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 CTC-DRO: Robust Optimization for Reducing Language Dispariti 9.0分前25% 🥈 Scaling Speech Tokenizers with Diffusion Autoencoders 8.5分前25% 🥉 StableToken: A Noise-Robust Semantic Speech Tokenizer for Re 8.0分前25% 4. Pay Attention to CTC: Fast and Robust Pseudo-Labelling for U 8.0分前10% 5. A Brain-Inspired Gating Mechanism Unlocks Robust Computation 7.5分前25% 6. A cross-species neural foundation model for end-to-end speec 7.5分前25% 7. Confident and Adaptive Generative Speech Recognition via Ris 7.5分前25% 8. Speech-to-LaTeX: New Models and Datasets for Converting Spok 7.5分前25% 9. SumRA: Parameter Efficient Fine-tuning with Singular Value D 7.5分前25% 📋 论文详情 🥇 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition 🔥 9.0/10 | 前25% | #语音识别 | #鲁棒性 | #多语言 #自监督学习 ...

ICLR 2026 - 语音转换 #语音匿名化论文列表

ICLR 2026 - 语音转换 #语音匿名化共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streamin 8.0分前25% 📋 论文详情 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization 🔥 8.0/10 | 前25% | #语音转换 #语音匿名化 | #时变建模 #流式处理 | #语音转换 #语音匿名化 👥 作者与机构第一作者：Waris Quamer（德克萨斯A&M大学计算机科学与工程系）通讯作者：未明确说明作者列表：Waris Quamer（德克萨斯A&M大学计算机科学与工程系）、Mu-Ruei Tseng（德克萨斯A&M大学计算机科学与工程系）、Ghady Nasrallah（德克萨斯A&M大学计算机科学与工程系）、Ricardo Gutierrez-Osuna（德克萨斯A&M大学计算机科学与工程系） 💡 毒舌点评论文的亮点在于精准捕捉了流式语音转换/匿名化中“静态说话人嵌入 vs 动态内容序列”这一核心矛盾，并设计了结构化的时变音色表示（TVT）和全局音色记忆（GTM）来优雅地解决它，设计思路清晰且有启发性。短板则在于实验部分，虽然全面对比了流式基线，但与VPC’24中表现更好的离线系统（如T8-4在隐私上远超TVTSyn）对比时，论文以“设计目标不同”为由回避了直接比较，这在一定程度上削弱了其声明的“SOTA”说服力；另外，UAR指标显示其情绪抑制很强（37.32%），但这可能是过度匿名化的副作用，论文未深入探讨如何可控地平衡身份与副语言信息。 🔗 开源详情代码：论文提供了一个代码仓库的链接：https://anonymized0826.github.io/TVTSyn/。这通常意味着代码可能开源或至少包含演示。模型权重：论文中未提及是否公开预训练模型权重。数据集：训练使用了公开的LibriTTS语料库。评估数据集（CMU ARCTIC, L2-ARCTIC, VCTK, EMIME, LibriSpeech）也均为公开数据集，获取方式遵循标准学术协议。 Demo：上述链接页面可能包含音频演示样本（论文中提到“Audio samples can be found at”）。复现材料：论文提供了详尽的架构描述（附录A）、超参数配置表（表5、表6）、训练策略和评估协议，为复现提供了重要指导。但未明确提供训练脚本、环境配置或检查点。引用的开源项目：论文中提到了SpeechBrain（用于说话人编码器）和Fairseq（用于HuBERT伪标签生成）。 📌 核心摘要 ...

ICLR 2026 - 语音问答论文列表

ICLR 2026 - 语音问答共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 8.0分前25% 📋 论文详情 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型 👥 作者与机构第一作者：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者：未明确说明作者列表：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评 ...

ICLR 2026 - 跨模态检索论文列表

ICLR 2026 - 跨模态检索共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Learning multimodal dictionary decompositions with group-spa 7.5分前25% 📋 论文详情 🥇 Learning multimodal dictionary decompositions with group-sparse autoencoders ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本 👥 作者与机构第一作者：Chiraag Kaushik（Georgia Institute of Technology, School of Electrical and Computer Engineering）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chiraag Kaushik（Georgia Institute of Technology）、Davis Barch（Dolby Laboratories）、Andrea Fanelli（Dolby Laboratories） 💡 毒舌点评 ...

ICLR 2026 - 跨模态生成论文列表

ICLR 2026 - 跨模态生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional 9.5分前10% 📋 论文详情 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows 🔥 9.5/10 | 前10% | #跨模态生成 | #流匹配 | #音频生成 #多模态模型 👥 作者与机构第一作者：Yeonwoo Cha* (KAIST) 通讯作者：Seunghoon Hong (KAIST) 作者列表：Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST)（*表示同等贡献） 💡 毒舌点评亮点在于其“共享潜在空间+单模态可逆流”的设计，用近乎暴力的简洁性一举解决了多模态生成中数据配对、计算成本和训练复杂度的“不可能三角”，工程思想非常漂亮。短板是论文为了突出效率，选用的模型体量和训练数据远小于前沿基线，可能在生成质量的绝对上限上有所妥协，且对更复杂的模态交互（如高保真视频生成）的能力尚未被充分验证。 🔗 开源详情 ...

ICLR 2026 - 音乐信息检索论文列表

ICLR 2026 - 音乐信息检索共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Bridging Piano Transcription and Rendering via Disentangled 8.0分前25% 🥈 LLM2Fx-Tools: Tool Calling for Music Post-Production 7.0分前25% 📋 论文详情 🥇 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 👥 作者与机构第一作者：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者：Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表：Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 ...

ICLR 2026 - 音乐理解论文列表

ICLR 2026 - 音乐理解共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Pr 8.0分前25% 🥈 Music Flamingo: Scaling Music Understanding in Audio Languag 7.5分前25% 📋 论文详情 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索 👥 作者与机构第一作者：Benjamin Shiue-Hal Chou（Purdue University）通讯作者：未说明（论文未明确指定，但联系邮箱主要为{作者名}@purdue.edu，可能为共同指导）作者列表： Benjamin Shiue-Hal Chou（Purdue University） Purvish Jajal（Purdue University） Nick John Eliopoulos（Purdue University） James C. Davis（Purdue University） George K. Thiruvathukal（Loyola University Chicago） Kristen Yeon-Ji Yun（Purdue University） Yung-Hsiang Lu（Purdue University） 💡 毒舌点评 ...

ICLR 2026 - 音乐生成论文列表

ICLR 2026 - 音乐生成共 9 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Steering Autoregressive Music Generation with Recursive Feat 8.5分前25% 🥈 SongEcho: Towards Cover Song Generation via Instance-Adaptiv 8.5分前25% 🥉 Latent Fourier Transform 8.5分前25% 4. Discovering and Steering Interpretable Concepts in Large Gen 8.0分前25% 5. Token-Based Audio Inpainting via Discrete Diffusion 7.5分前25% 6. SyncTrack: Rhythmic Stability and Synchronization in Multi-T 7.5分前25% 7. YuE: Scaling Open Foundation Models for Long-Form Music Gene 7.5分前25% 8. Generative Adversarial Post-Training Mitigates Reward Hackin 7.0分前25% 9. Automatic Stage Lighting Control: Is it a Rule-Driven Proces 7.0分前25% 📋 论文详情 🥇 Steering Autoregressive Music Generation with Recursive Feature Machines 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预 ...

ICLR 2026 - 音视频论文列表

ICLR 2026 - 音视频共 4 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audi 9.0分前25% 🥈 JavisDiT: Joint Audio-Video Diffusion Transformer with Hiera 8.5分前25% 🥉 Syncphony: Synchronized Audio-to-Video Generation with Diffu 8.0分前25% 4. Instilling an Active Mind in Avatars via Cognitive Simulatio 7.0分前25% 📋 论文详情 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 ...