ICLR 2026 - 语音识别 #语音合成 论文列表

ICLR 2026 - 语音识别 #语音合成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Latent Speech-Text Transformer 7.0分 前25% 📋 论文详情 🥇 Latent Speech-Text Transformer ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 👥 作者与机构 第一作者:Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing ),工作于 Meta 期间完成。 通讯作者:Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表: Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs ),工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 197 words

ICLR 2026 - 语音识别 论文列表

ICLR 2026 - 语音识别 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 CTC-DRO: Robust Optimization for Reducing Language Dispariti 9.0分 前25% 🥈 Scaling Speech Tokenizers with Diffusion Autoencoders 8.5分 前25% 🥉 StableToken: A Noise-Robust Semantic Speech Tokenizer for Re 8.0分 前25% 4. Pay Attention to CTC: Fast and Robust Pseudo-Labelling for U 8.0分 前10% 5. A Brain-Inspired Gating Mechanism Unlocks Robust Computation 7.5分 前25% 6. A cross-species neural foundation model for end-to-end speec 7.5分 前25% 7. Confident and Adaptive Generative Speech Recognition via Ris 7.5分 前25% 8. Speech-to-LaTeX: New Models and Datasets for Converting Spok 7.5分 前25% 9. SumRA: Parameter Efficient Fine-tuning with Singular Value D 7.5分 前25% 📋 论文详情 🥇 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition 🔥 9.0/10 | 前25% | #语音识别 | #鲁棒性 | #多语言 #自监督学习 ...

2026-05-04 · 更新于 2026-05-20 · 6 min · 1099 words

ICLR 2026 - 语音转换 #语音匿名化 论文列表

ICLR 2026 - 语音转换 #语音匿名化 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streamin 8.0分 前25% 📋 论文详情 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization 🔥 8.0/10 | 前25% | #语音转换 #语音匿名化 | #时变建模 #流式处理 | #语音转换 #语音匿名化 👥 作者与机构 第一作者:Waris Quamer(德克萨斯A&M大学计算机科学与工程系) 通讯作者:未明确说明 作者列表:Waris Quamer(德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng(德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah(德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna(德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评 论文的亮点在于精准捕捉了流式语音转换/匿名化中“静态说话人嵌入 vs 动态内容序列”这一核心矛盾,并设计了结构化的时变音色表示(TVT)和全局音色记忆(GTM)来优雅地解决它,设计思路清晰且有启发性。短板则在于实验部分,虽然全面对比了流式基线,但与VPC’24中表现更好的离线系统(如T8-4在隐私上远超TVTSyn)对比时,论文以“设计目标不同”为由回避了直接比较,这在一定程度上削弱了其声明的“SOTA”说服力;另外,UAR指标显示其情绪抑制很强(37.32%),但这可能是过度匿名化的副作用,论文未深入探讨如何可控地平衡身份与副语言信息。 🔗 开源详情 代码:论文提供了一个代码仓库的链接:https://anonymized0826.github.io/TVTSyn/。这通常意味着代码可能开源或至少包含演示。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:训练使用了公开的LibriTTS语料库。评估数据集(CMU ARCTIC, L2-ARCTIC, VCTK, EMIME, LibriSpeech)也均为公开数据集,获取方式遵循标准学术协议。 Demo:上述链接页面可能包含音频演示样本(论文中提到“Audio samples can be found at”)。 复现材料:论文提供了详尽的架构描述(附录A)、超参数配置表(表5、表6)、训练策略和评估协议,为复现提供了重要指导。但未明确提供训练脚本、环境配置或检查点。 引用的开源项目:论文中提到了SpeechBrain(用于说话人编码器)和Fairseq(用于HuBERT伪标签生成)。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 168 words

ICLR 2026 - 语音问答 论文列表

ICLR 2026 - 语音问答 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 8.0分 前25% 📋 论文详情 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型 👥 作者与机构 第一作者:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者:未明确说明 作者列表:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 145 words

ICLR 2026 - 跨模态检索 论文列表

ICLR 2026 - 跨模态检索 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Learning multimodal dictionary decompositions with group-spa 7.5分 前25% 📋 论文详情 🥇 Learning multimodal dictionary decompositions with group-sparse autoencoders ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本 👥 作者与机构 第一作者:Chiraag Kaushik(Georgia Institute of Technology, School of Electrical and Computer Engineering) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Chiraag Kaushik(Georgia Institute of Technology)、Davis Barch(Dolby Laboratories)、Andrea Fanelli(Dolby Laboratories) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 91 words

ICLR 2026 - 跨模态生成 论文列表

ICLR 2026 - 跨模态生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional 9.5分 前10% 📋 论文详情 🥇 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows 🔥 9.5/10 | 前10% | #跨模态生成 | #流匹配 | #音频生成 #多模态模型 👥 作者与机构 第一作者:Yeonwoo Cha* (KAIST) 通讯作者:Seunghoon Hong (KAIST) 作者列表:Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST)(*表示同等贡献) 💡 毒舌点评 亮点在于其“共享潜在空间+单模态可逆流”的设计,用近乎暴力的简洁性一举解决了多模态生成中数据配对、计算成本和训练复杂度的“不可能三角”,工程思想非常漂亮。短板是论文为了突出效率,选用的模型体量和训练数据远小于前沿基线,可能在生成质量的绝对上限上有所妥协,且对更复杂的模态交互(如高保真视频生成)的能力尚未被充分验证。 🔗 开源详情 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 108 words

ICLR 2026 - 音乐信息检索 论文列表

ICLR 2026 - 音乐信息检索 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Bridging Piano Transcription and Rendering via Disentangled 8.0分 前25% 🥈 LLM2Fx-Tools: Tool Calling for Music Post-Production 7.0分 前25% 📋 论文详情 🥇 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 262 words

ICLR 2026 - 音乐理解 论文列表

ICLR 2026 - 音乐理解 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Pr 8.0分 前25% 🥈 Music Flamingo: Scaling Music Understanding in Audio Languag 7.5分 前25% 📋 论文详情 🥇 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索 👥 作者与机构 第一作者:Benjamin Shiue-Hal Chou(Purdue University) 通讯作者:未说明(论文未明确指定,但联系邮箱主要为{作者名}@purdue.edu,可能为共同指导) 作者列表: Benjamin Shiue-Hal Chou(Purdue University) Purvish Jajal(Purdue University) Nick John Eliopoulos(Purdue University) James C. Davis(Purdue University) George K. Thiruvathukal(Loyola University Chicago) Kristen Yeon-Ji Yun(Purdue University) Yung-Hsiang Lu(Purdue University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 224 words

ICLR 2026 - 音乐生成 论文列表

ICLR 2026 - 音乐生成 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Steering Autoregressive Music Generation with Recursive Feat 8.5分 前25% 🥈 SongEcho: Towards Cover Song Generation via Instance-Adaptiv 8.5分 前25% 🥉 Latent Fourier Transform 8.5分 前25% 4. Discovering and Steering Interpretable Concepts in Large Gen 8.0分 前25% 5. Token-Based Audio Inpainting via Discrete Diffusion 7.5分 前25% 6. SyncTrack: Rhythmic Stability and Synchronization in Multi-T 7.5分 前25% 7. YuE: Scaling Open Foundation Models for Long-Form Music Gene 7.5分 前25% 8. Generative Adversarial Post-Training Mitigates Reward Hackin 7.0分 前25% 9. Automatic Stage Lighting Control: Is it a Rule-Driven Proces 7.0分 前25% 📋 论文详情 🥇 Steering Autoregressive Music Generation with Recursive Feature Machines 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预 ...

2026-05-04 · 更新于 2026-05-20 · 7 min · 1298 words

ICLR 2026 - 音视频 论文列表

ICLR 2026 - 音视频 共 4 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audi 9.0分 前25% 🥈 JavisDiT: Joint Audio-Video Diffusion Transformer with Hiera 8.5分 前25% 🥉 Syncphony: Synchronized Audio-to-Video Generation with Diffu 8.0分 前25% 4. Instilling an Active Mind in Avatars via Cognitive Simulatio 7.0分 前25% 📋 论文详情 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 400 words