Posts

ICLR 2026 - 语音大模型论文列表

ICLR 2026 - 语音大模型共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Closing the Gap Between Text and Speech Understanding in LLM 8.5分前25% 📋 论文详情 🥇 Closing the Gap Between Text and Speech Understanding in LLMs 🔥 8.5/10 | 前25% | #语音大模型 | #知识蒸馏 #主动学习 | #知识蒸馏 #主动学习 👥 作者与机构第一作者：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS）通讯作者：未说明作者列表：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS）、Skyler Seto（Apple）、Maureen de Seyssel（Apple）、Richard He Bai（Apple）、Zijin Gu（Apple）、Tatiana Likhomanenko（Apple）、Navdeep Jaitly（Apple）、Zakaria Aldeneh（Apple） 💡 毒舌点评 ...

ICLR 2026 - 语音对话系统论文列表

ICLR 2026 - 语音对话系统共 8 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via D 9.5分前10% 🥈 STITCH: Simultaneous Thinking and Talking with Chunked Reaso 8.5分前25% 🥉 End-to-end Listen, Look, Speak and Act 8.5分前25% 4. From Text to Talk: Audio-Language Model Needs Non-Autoregres 8.5分前25% 5. ParaS2S: Benchmarking and Aligning Spoken Language Models fo 8.0分前25% 6. Human or Machine? A Preliminary Turing Test for Speech-to-Sp 7.5分前25% 7. Can Speech LLMs Think while Listening? 7.5分前25% 8. Towards True Speech-to-Speech Models Without Text Guidance 7.5分前25% 📋 论文详情 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成 ...

ICLR 2026 - 语音情感识别论文列表

ICLR 2026 - 语音情感识别共 5 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-lev 8.5分前25% 🥈 AVERE: Improving Audiovisual Emotion Reasoning with Preferen 8.0分前25% 🥉 Learnable Fractional Superlets with a Spectro-Temporal Emoti 8.0分前25% 4. EmotionThinker: Prosody-Aware Reinforcement Learning for Exp 8.0分前25% 5. Speech World Model: Causal State–Action Planning with Explic 7.5分前25% 📋 论文详情 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation 🔥 8.5/10 | 前25% | #语音情感识别 | #强化学习 | #多语言 #大语言模型 ...

ICLR 2026 - 语音生成论文列表

ICLR 2026 - 语音生成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Sp 7.0分前25% 📋 论文详情 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练 👥 作者与机构第一作者：Liang-Hsuan Tseng (台湾大学电信工程学研究所，MediaTek Research实习) 通讯作者：未明确说明，但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。作者列表： Liang-Hsuan Tseng (台湾大学电信工程学研究所，MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所，MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评 ...

ICLR 2026 - 语音翻译论文列表

ICLR 2026 - 语音翻译共 2 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Scalable Multilingual Multimodal Machine Translation with Sp 8.5分前25% 🥈 UniSS: Unified Expressive Speech-to-Speech Translation with 8.0分前25% 📋 论文详情 🥇 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion 🔥 8.5/10 | 前25% | #语音翻译 | #多模态模型 | #多语言 #低资源 👥 作者与机构第一作者：Yexing Du（哈尔滨工业大学，鹏城实验室）通讯作者：Youcheng Pan（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学，鹏城实验室）作者列表：Yexing Du（哈尔滨工业大学，鹏城实验室）、 Youcheng Pan（鹏城实验室）、 Zekun Wang（哈尔滨工业大学）、 Zheng Chu（哈尔滨工业大学）、 Yichong Huang（哈尔滨工业大学）、 Kaiyuan Liu（哈尔滨工业大学，鹏城实验室）、 Bo Yang（鹏城实验室）、 Yang Xiang（鹏城实验室）、 Ming Liu（哈尔滨工业大学，鹏城实验室）、 Bing Qin（哈尔滨工业大学，鹏城实验室） 💡 毒舌点评 ...

ICLR 2026 - 语音识别 #语音合成论文列表

ICLR 2026 - 语音识别 #语音合成共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Latent Speech-Text Transformer 7.0分前25% 📋 论文详情 🥇 Latent Speech-Text Transformer ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 👥 作者与机构第一作者：Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing )，工作于 Meta 期间完成。通讯作者：Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表： Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs )，工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评 ...

ICLR 2026 - 语音识别论文列表

ICLR 2026 - 语音识别共 9 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 CTC-DRO: Robust Optimization for Reducing Language Dispariti 9.0分前25% 🥈 Scaling Speech Tokenizers with Diffusion Autoencoders 8.5分前25% 🥉 StableToken: A Noise-Robust Semantic Speech Tokenizer for Re 8.0分前25% 4. Pay Attention to CTC: Fast and Robust Pseudo-Labelling for U 8.0分前10% 5. A Brain-Inspired Gating Mechanism Unlocks Robust Computation 7.5分前25% 6. A cross-species neural foundation model for end-to-end speec 7.5分前25% 7. Confident and Adaptive Generative Speech Recognition via Ris 7.5分前25% 8. Speech-to-LaTeX: New Models and Datasets for Converting Spok 7.5分前25% 9. SumRA: Parameter Efficient Fine-tuning with Singular Value D 7.5分前25% 📋 论文详情 🥇 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition 🔥 9.0/10 | 前25% | #语音识别 | #鲁棒性 | #多语言 #自监督学习 ...

ICLR 2026 - 语音转换 #语音匿名化论文列表

ICLR 2026 - 语音转换 #语音匿名化共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streamin 8.0分前25% 📋 论文详情 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization 🔥 8.0/10 | 前25% | #语音转换 #语音匿名化 | #时变建模 #流式处理 | #语音转换 #语音匿名化 👥 作者与机构第一作者：Waris Quamer（德克萨斯A&M大学计算机科学与工程系）通讯作者：未明确说明作者列表：Waris Quamer（德克萨斯A&M大学计算机科学与工程系）、Mu-Ruei Tseng（德克萨斯A&M大学计算机科学与工程系）、Ghady Nasrallah（德克萨斯A&M大学计算机科学与工程系）、Ricardo Gutierrez-Osuna（德克萨斯A&M大学计算机科学与工程系） 💡 毒舌点评论文的亮点在于精准捕捉了流式语音转换/匿名化中“静态说话人嵌入 vs 动态内容序列”这一核心矛盾，并设计了结构化的时变音色表示（TVT）和全局音色记忆（GTM）来优雅地解决它，设计思路清晰且有启发性。短板则在于实验部分，虽然全面对比了流式基线，但与VPC’24中表现更好的离线系统（如T8-4在隐私上远超TVTSyn）对比时，论文以“设计目标不同”为由回避了直接比较，这在一定程度上削弱了其声明的“SOTA”说服力；另外，UAR指标显示其情绪抑制很强（37.32%），但这可能是过度匿名化的副作用，论文未深入探讨如何可控地平衡身份与副语言信息。 🔗 开源详情代码：论文提供了一个代码仓库的链接：https://anonymized0826.github.io/TVTSyn/。这通常意味着代码可能开源或至少包含演示。模型权重：论文中未提及是否公开预训练模型权重。数据集：训练使用了公开的LibriTTS语料库。评估数据集（CMU ARCTIC, L2-ARCTIC, VCTK, EMIME, LibriSpeech）也均为公开数据集，获取方式遵循标准学术协议。 Demo：上述链接页面可能包含音频演示样本（论文中提到“Audio samples can be found at”）。复现材料：论文提供了详尽的架构描述（附录A）、超参数配置表（表5、表6）、训练策略和评估协议，为复现提供了重要指导。但未明确提供训练脚本、环境配置或检查点。引用的开源项目：论文中提到了SpeechBrain（用于说话人编码器）和Fairseq（用于HuBERT伪标签生成）。 📌 核心摘要 ...

ICLR 2026 - 语音问答论文列表

ICLR 2026 - 语音问答共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 8.0分前25% 📋 论文详情 🥇 Data-Centric Lessons To Improve Speech-Language Pretraining 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型 👥 作者与机构第一作者：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者：未明确说明作者列表：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评 ...

ICLR 2026 - 跨模态检索论文列表

ICLR 2026 - 跨模态检索共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Learning multimodal dictionary decompositions with group-spa 7.5分前25% 📋 论文详情 🥇 Learning multimodal dictionary decompositions with group-sparse autoencoders ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本 👥 作者与机构第一作者：Chiraag Kaushik（Georgia Institute of Technology, School of Electrical and Computer Engineering）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chiraag Kaushik（Georgia Institute of Technology）、Davis Barch（Dolby Laboratories）、Andrea Fanelli（Dolby Laboratories） 💡 毒舌点评 ...