ICLR 2026 - 语音大模型 论文列表

ICLR 2026 - 语音大模型 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Closing the Gap Between Text and Speech Understanding in LLM 8.5分 前25% 📋 论文详情 🥇 Closing the Gap Between Text and Speech Understanding in LLMs 🔥 8.5/10 | 前25% | #语音大模型 | #知识蒸馏 #主动学习 | #知识蒸馏 #主动学习 👥 作者与机构 第一作者:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS) 通讯作者:未说明 作者列表:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS)、Skyler Seto(Apple)、Maureen de Seyssel(Apple)、Richard He Bai(Apple)、Zijin Gu(Apple)、Tatiana Likhomanenko(Apple)、Navdeep Jaitly(Apple)、Zakaria Aldeneh(Apple) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 128 words

ICLR 2026 - 语音对话系统 论文列表

ICLR 2026 - 语音对话系统 共 8 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via D 9.5分 前10% 🥈 STITCH: Simultaneous Thinking and Talking with Chunked Reaso 8.5分 前25% 🥉 End-to-end Listen, Look, Speak and Act 8.5分 前25% 4. From Text to Talk: Audio-Language Model Needs Non-Autoregres 8.5分 前25% 5. ParaS2S: Benchmarking and Aligning Spoken Language Models fo 8.0分 前25% 6. Human or Machine? A Preliminary Turing Test for Speech-to-Sp 7.5分 前25% 7. Can Speech LLMs Think while Listening? 7.5分 前25% 8. Towards True Speech-to-Speech Models Without Text Guidance 7.5分 前25% 📋 论文详情 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成 ...

2026-05-04 · 更新于 2026-05-22 · 4 min · 817 words

ICLR 2026 - 语音情感识别 论文列表

ICLR 2026 - 语音情感识别 共 5 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-lev 8.5分 前25% 🥈 AVERE: Improving Audiovisual Emotion Reasoning with Preferen 8.0分 前25% 🥉 Learnable Fractional Superlets with a Spectro-Temporal Emoti 8.0分 前25% 4. EmotionThinker: Prosody-Aware Reinforcement Learning for Exp 8.0分 前25% 5. Speech World Model: Causal State–Action Planning with Explic 7.5分 前25% 📋 论文详情 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation 🔥 8.5/10 | 前25% | #语音情感识别 | #强化学习 | #多语言 #大语言模型 ...

2026-05-04 · 更新于 2026-05-22 · 3 min · 637 words

ICLR 2026 - 语音生成 论文列表

ICLR 2026 - 语音生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Sp 7.0分 前25% 📋 论文详情 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练 👥 作者与机构 第一作者:Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) 通讯作者:未明确说明,但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。 作者列表: Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所,MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 126 words

ICLR 2026 - 语音翻译 论文列表

ICLR 2026 - 语音翻译 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Scalable Multilingual Multimodal Machine Translation with Sp 8.5分 前25% 🥈 UniSS: Unified Expressive Speech-to-Speech Translation with 8.0分 前25% 📋 论文详情 🥇 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion 🔥 8.5/10 | 前25% | #语音翻译 | #多模态模型 | #多语言 #低资源 👥 作者与机构 第一作者:Yexing Du(哈尔滨工业大学,鹏城实验室) 通讯作者:Youcheng Pan(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学,鹏城实验室) 作者列表:Yexing Du(哈尔滨工业大学,鹏城实验室)、 Youcheng Pan(鹏城实验室)、 Zekun Wang(哈尔滨工业大学)、 Zheng Chu(哈尔滨工业大学)、 Yichong Huang(哈尔滨工业大学)、 Kaiyuan Liu(哈尔滨工业大学,鹏城实验室)、 Bo Yang(鹏城实验室)、 Yang Xiang(鹏城实验室)、 Ming Liu(哈尔滨工业大学,鹏城实验室)、 Bing Qin(哈尔滨工业大学,鹏城实验室) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 214 words

ICLR 2026 - 语音识别 #语音合成 论文列表

ICLR 2026 - 语音识别 #语音合成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Latent Speech-Text Transformer 7.0分 前25% 📋 论文详情 🥇 Latent Speech-Text Transformer ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 👥 作者与机构 第一作者:Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing ),工作于 Meta 期间完成。 通讯作者:Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表: Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs ),工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 197 words

ICLR 2026 - 语音识别 论文列表

ICLR 2026 - 语音识别 共 9 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 CTC-DRO: Robust Optimization for Reducing Language Dispariti 9.0分 前25% 🥈 Scaling Speech Tokenizers with Diffusion Autoencoders 8.5分 前25% 🥉 StableToken: A Noise-Robust Semantic Speech Tokenizer for Re 8.0分 前25% 4. Pay Attention to CTC: Fast and Robust Pseudo-Labelling for U 8.0分 前10% 5. A Brain-Inspired Gating Mechanism Unlocks Robust Computation 7.5分 前25% 6. A cross-species neural foundation model for end-to-end speec 7.5分 前25% 7. Confident and Adaptive Generative Speech Recognition via Ris 7.5分 前25% 8. Speech-to-LaTeX: New Models and Datasets for Converting Spok 7.5分 前25% 9. SumRA: Parameter Efficient Fine-tuning with Singular Value D 7.5分 前25% 📋 论文详情 🥇 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition 🔥 9.0/10 | 前25% | #语音识别 | #鲁棒性 | #多语言 #自监督学习 ...

2026-05-04 · 更新于 2026-05-22 · 6 min · 1099 words

ICLR 2026 - 语音转换 #语音匿名化 论文列表

ICLR 2026 - 语音转换 #语音匿名化 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streamin 8.0分 前25% 📋 论文详情 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization 🔥 8.0/10 | 前25% | #语音转换 #语音匿名化 | #时变建模 #流式处理 | #语音转换 #语音匿名化 👥 作者与机构 第一作者:Waris Quamer(德克萨斯A&M大学计算机科学与工程系) 通讯作者:未明确说明 作者列表:Waris Quamer(德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng(德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah(德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna(德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评 论文的亮点在于精准捕捉了流式语音转换/匿名化中“静态说话人嵌入 vs 动态内容序列”这一核心矛盾,并设计了结构化的时变音色表示(TVT)和全局音色记忆(GTM)来优雅地解决它,设计思路清晰且有启发性。短板则在于实验部分,虽然全面对比了流式基线,但与VPC’24中表现更好的离线系统(如T8-4在隐私上远超TVTSyn)对比时,论文以“设计目标不同”为由回避了直接比较,这在一定程度上削弱了其声明的“SOTA”说服力;另外,UAR指标显示其情绪抑制很强(37.32%),但这可能是过度匿名化的副作用,论文未深入探讨如何可控地平衡身份与副语言信息。 🔗 开源详情 代码:论文提供了一个代码仓库的链接:https://anonymized0826.github.io/TVTSyn/。这通常意味着代码可能开源或至少包含演示。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:训练使用了公开的LibriTTS语料库。评估数据集(CMU ARCTIC, L2-ARCTIC, VCTK, EMIME, LibriSpeech)也均为公开数据集,获取方式遵循标准学术协议。 Demo:上述链接页面可能包含音频演示样本(论文中提到“Audio samples can be found at”)。 复现材料:论文提供了详尽的架构描述(附录A)、超参数配置表(表5、表6)、训练策略和评估协议,为复现提供了重要指导。但未明确提供训练脚本、环境配置或检查点。 引用的开源项目:论文中提到了SpeechBrain(用于说话人编码器)和Fairseq(用于HuBERT伪标签生成)。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 168 words

ICLR 2026 - 语音问答 论文列表

ICLR 2026 - 语音问答 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 8.0分 前25% 📋 论文详情 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型 👥 作者与机构 第一作者:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者:未明确说明 作者列表:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 145 words

ICLR 2026 - 跨模态检索 论文列表

ICLR 2026 - 跨模态检索 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Learning multimodal dictionary decompositions with group-spa 7.5分 前25% 📋 论文详情 🥇 Learning multimodal dictionary decompositions with group-sparse autoencoders ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本 👥 作者与机构 第一作者:Chiraag Kaushik(Georgia Institute of Technology, School of Electrical and Computer Engineering) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Chiraag Kaushik(Georgia Institute of Technology)、Davis Barch(Dolby Laboratories)、Andrea Fanelli(Dolby Laboratories) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 91 words