语音对话系统

ICLR 2026 - 语音对话系统论文列表

ICLR 2026 - 语音对话系统共 8 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via D 9.5分前10% 🥈 STITCH: Simultaneous Thinking and Talking with Chunked Reaso 8.5分前25% 🥉 End-to-end Listen, Look, Speak and Act 8.5分前25% 4. From Text to Talk: Audio-Language Model Needs Non-Autoregres 8.5分前25% 5. ParaS2S: Benchmarking and Aligning Spoken Language Models fo 8.0分前25% 6. Human or Machine? A Preliminary Turing Test for Speech-to-Sp 7.5分前25% 7. Can Speech LLMs Think while Listening? 7.5分前25% 8. Towards True Speech-to-Speech Models Without Text Guidance 7.5分前25% 📋 论文详情 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #跨模态检索 #语音对话系统 #模型评估 🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统学术质量 5.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Run Luo (中国科学院深圳先进技术研究院、中国科学院大学) 通讯作者：未明确说明（论文中未以“Corresponding author”标注单独作者，但提供了多个联系邮箱）作者列表： Run Luo (中国科学院深圳先进技术研究院，中国科学院大学) Xiaobo Xia (新加坡国立大学，中国科学技术大学) * Lu Wang (Rtizz-AI) Longze Chen (中国科学院深圳先进技术研究院，中国科学院大学) Renke Shan (Rtizz-AI) Jing Luo (中国科学院深圳先进技术研究院，中国科学院大学) Min Yang (中国科学院深圳先进技术研究院，深圳大学) * Tat-Seng Chua (新加坡国立大学) 标注的作者在作者列表中被提及为通讯作者。 💡 毒舌点评亮点在于论文提出了一个干净利落的统一框架（DFM），避免了自回归范式在理解/生成任务间的先天矛盾，并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力（如文本生成图像）的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖，且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。 ...

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #语音大模型 #语音合成 #基准测试 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #语音合成学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shu-wen Yang（台湾大学通讯工程研究所）通讯作者：Ming Tu（字节跳动 Seed），Lu Lu（字节跳动 Seed）作者列表：Shu-wen Yang（台湾大学通讯工程研究所，字节跳动 Seed†），Ming Tu（字节跳动 Seed†），Andy T. Liu（字节跳动 Seed），Xinghua Qu（字节跳动 Seed），Hung-yi Lee（台湾大学通讯工程研究所），Lu Lu（字节跳动 Seed†），Yuxuan Wang（字节跳动 Seed），Yonghui Wu（字节跳动 Seed） 💡 毒舌点评亮点：论文系统性地定义了副语言感知的S2S交互评估难题，并构建了从基准测试到自动评测再到强化学习训练的完整闭环，其提出的“PolyTone”训练策略和多阶段评测框架有效缓解了音频大模型的风格幻觉问题，实验结果令人信服。短板：整个框架高度依赖复杂的多阶段流程和多个外部模型（如Whisper， AudioReasoner， Qwen2.5-Omni），虽然论文提供了蒸馏后的奖励模型方案，但最终模型的轻量化和部署效率存在疑问，且核心RL方法（GRPO）并非原创。 ...

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统 ✅ 7.5/10 | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学、上海创新研究院）通讯作者：Jinlan Fu（未说明具体机构，对应邮箱jinlanjonna@gmail.com），Xipeng Qiu（复旦大学、上海创新研究院）作者列表： Siyin Wang（复旦大学、上海创新研究院） Jinlan Fu（国家大学新加坡） Feihong Liu（复旦大学） Xinzhe He（复旦大学） Huangxuan Wu（复旦大学） Junhao Shi（复旦大学、上海创新研究院） Kexin Huang（复旦大学） Zhaoye Fei（复旦大学） Jingjing Gong（上海创新研究院） Zuxuan Wu（复旦大学、上海创新研究院） Yu-Gang Jiang（复旦大学） See-Kiong Ng（国家大学新加坡） Tat-Seng Chua（国家大学新加坡） Xipeng Qiu（复旦大学、上海创新研究院） 💡 毒舌点评这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问，而非被动接受指令，这比单纯提升操作成功率更有意义。然而，其真实世界评估仅在单一机器人平台（WidowX 250S）上进行，且失败分析显示执行错误（如抓取失败）占比过半，凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟，离“家庭管家”的理想距离尚远。 ...

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音对话系统 #流式处理 #自回归模型 #语音大模型 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #流式处理 | #自回归模型 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Cheng-Han Chiang（National Taiwan University， Microsoft GenAI）通讯作者：Xiaofei Wang（Microsoft）作者列表：Cheng-Han Chiang（National Taiwan University, Microsoft）， Xiaofei Wang（Microsoft）， Linjie Li（Microsoft）， Chung-Ching Lin（Microsoft）， Kevin Lin（Microsoft）， Shujie Liu（Microsoft）， Zhendong Wang（Microsoft）， Zhengyuan Yang（Microsoft）， Hung-yi Lee（National Taiwan University）， Lijuan Wang（Microsoft） 💡 毒舌点评亮点在于将人类“边想边说”的模式形式化为一个可计算的交错生成框架，并在几乎不增加首包延迟的前提下显著提升了数学推理任务的准确率，堪称“偷时间”的艺术。短板在于对生成的“思考链”本身的质量和可靠性缺乏更深入的分析，且实验场景集中于英文数学题，对更复杂对话场景的泛化能力有待验证。 ...

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #端到端 #大语言模型 #预训练 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #大语言模型 #预训练学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xingjoint Zhao（复旦大学）通讯作者：Xipeng Qiu（复旦大学）作者列表：Xingjoint Zhao¹³（1.复旦大学，2.上海创新研究院，3.MOSI.AI），Zhe Xu¹²³，Luozhijie Jin¹²³，Yang Wang¹³，Hanfu Chen¹³，Yaozhou Jiang¹³，Ke Chen¹²³，Ruixiao Li¹²³，Mingshu Chen¹³，Ruiming Wang¹³，Wenbo Zhang¹²³，Qinyuan Cheng¹³，Zhaoye Fei¹³，Shimin Li³，Xipeng Qiu¹²³† 💡 毒舌点评亮点：论文直击当前语音对话模型“伪端到端”（依赖文本指导）的痛点，提出的模态分层架构和冻结预训练策略，为在LLM中集成原生语音能力并保留文本智能提供了一个有原理性支撑且实验有效的解决方案。短板：尽管自称为“真”语音到语音模型，但其语音理解与生成的底层仍严重依赖于强大的文本LLM骨干和高质量的文本-语音配对数据，其“无文本指导”更多体现在生成阶段，训练阶段对文本的依赖并未摆脱；此外，对于更复杂的、富含副语言信息的开放式对话场景，模型的表现力有待进一步验证。 📌 核心摘要本文旨在解决现有语音对话系统依赖文本中间环节导致的延迟增加、副语言信息丢失和表达力受限的问题。核心方法是构建一个真正的、无需文本指导的语音到语音大语言模型，其技术核心是模态分层架构（在Transformer顶层为文本和语音设置独立分支）与冻结预训练策略（第一阶段冻结预训练文本LLM，仅训练语音相关模块；第二阶段再联合微调）。与已有方法相比，其创新在于明确观察并利用了跨模态表示在模型深度上的演变规律（先融合后分化），并设计了对应的架构进行适配，同时通过冻结策略有效防止了文本能力的灾难性遗忘。主要实验结果表明：1）在口语问答任务上（如LlamaQA），模型的语音到语音（S→S）性能（63.67%）达到了与文本指导系统（GLM-4-Voice*：65.67%）可比的水平，并在WebQA上（36.71%）超越了后者（38.34%），在部分任务上取得SOTA；2）模型在文本能力基准（MMLU: 67.19， CMMLU: 69.53）上相比引入语音前的文本LLM（Qwen3-8B: MMLU 76.6， CMMLU 77.35）的下降幅度远小于SpiritLM等模型；3）语音编码器/解码器在WER、SIM等指标上具备竞争力。该工作为构建高效、富有表现力的端到端语音交互系统建立了新的范式。主要局限性在于训练依赖大规模、高质量的语音-文本数据（包括合成数据），且模型在复杂对话、长时交互和极端副语言场景下的能力尚未充分评估。 ...

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #大语言模型 #思维链 #偏好学习 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #大语言模型 | #思维链 #偏好学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs) 通讯作者：未明确说明（论文标注两位共同第一作者：Yi-Jen Shih, Desh Raj，以及共同作者：Chunyang Wu, Wei Zhou等）作者列表：Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs)， Desh Raj (Meta Superintelligence Labs)， Chunyang Wu (Meta Superintelligence Labs)， Wei Zhou (Meta Superintelligence Labs)， SK Bong (Meta Superintelligence Labs)， Yashesh Gaur (Meta Superintelligence Labs)， Jay Mahadeokar (Meta Superintelligence Labs)， Ozlem Kalinli (Meta Superintelligence Labs)， Michael L. Seltzer (Meta Superintelligence Labs) 💡 毒舌点评论文成功地将“思维链”和“边听边想”的概念从文本大模型工程化移植到语音大模型领域，提出了“问题完整度”这一新颖的触发指标，并用DPO优化了推理启动时机与长度，工程设计思路清晰。然而，最大的短板在于所有实验基于未公开的内部模型和数据集（虽用了公开的Moshi，但训练数据为私有），这使得其提出的“问题完整度”度量的普适性和复现性存疑，论文的结论严重依赖其特定的训练流程和私有数据。 ...

Closing the Gap Between Text and Speech Understanding in LLMs

📄 Closing the Gap Between Text and Speech Understanding in LLMs #语音对话系统 #知识蒸馏 #端到端 #大语言模型 #跨模态 ✅ 7.5/10 | 前25% | #语音对话系统 | #知识蒸馏 | #端到端 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS；论文注释表明工作在Apple实习期间完成）通讯作者：未明确说明作者列表：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS），Skyler Seto（Apple），Maureen de Seyssel（Apple），Richard He Bai（Apple），Zijin Gu（Apple），Tatiana Likhomanenko（Apple），Navdeep Jaitly（Apple），Zakaria Aldeneh（Apple） 💡 毒舌点评这篇论文最大的亮点是把“语音LLM为什么不如文本LLM”这个模糊问题，清晰地拆解成了“遗忘”和“跨模态错位”两个可测量的指标，并据此设计了高效的两阶段训练策略，在数据量远小于同行的情况下取得了有竞争力的结果。但不足之处也很明显：方法验证严重依赖特定的合成语音（Kokoro TTS），其生成的语音质量与自然语音的差异，以及对非英语内容、复杂领域的覆盖，可能被低估了，而这些恰恰是真实场景中的关键挑战；此外，Stage II的主动选择策略虽然有效，但提升幅度有限，且需要预先为大量文本生成语音进行“探针”测量，其实际部署的成本效益比值得商榷。 ...

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #大语言模型 #端到端 #自回归模型 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #大语言模型 | #端到端 #自回归模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chao-Hong Tan (未明确标注，但作者列表首名) 通讯作者：论文中未明确指定通讯作者。作者列表：Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (Tongyi Fun Team, Alibaba Group) 💡 毒舌点评亮点：DrVoice 提出的双分辨率语音表示（DRSR）设计精巧，通过分组将输入帧率降至5Hz，大幅降低了计算成本（训练时间减少近50%），并成功缓解了语音与文本token的频率失配问题，在保持甚至超越SOTA性能的同时提升了效率。短板：模型在语音质量（UTMOS）上与最强基线（如Qwen2.5-Omni）持平，但在语音与文本对齐（ASR-WER）上仍有差距，说明其生成的语音在精确还原文本内容上还有提升空间，且全双工交互能力未实现。 ...

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音大模型 #语音对话系统 #模型评估 #语音情感识别 🔥 8.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音对话系统学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Li Zhou（香港中文大学（深圳））通讯作者：Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）， Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）作者列表：Li Zhou（香港中文大学（深圳））， Lutong Yu（香港中文大学（深圳））， You Lyu（香港中文大学（深圳））， Yihang Lin（香港中文大学（深圳））， Zefeng Zhao（香港中文大学（深圳））， Junyi Ao（香港中文大学（深圳））， Yuhao Zhang（香港中文大学（深圳））， Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）， Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院） 💡 毒舌点评这篇论文的价值在于它清晰地揭示了当前语音大模型在“听懂弦外之音”并“有温度地回应”上的集体短板，其精心设计的控制变量实验（中性文本搭配不同语音风格）是评估共情能力的关键创新。不过，作为一项评估基准研究，它本身并未提出新的模型架构或训练方法，其核心贡献是提出了问题并提供了标尺，解决问题的下一步还需依赖后续的模型开发工作。 🔗 开源详情代码：论文中提及将提供代码，但未在提供的文本中给出具体代码仓库链接。模型权重：未提及。该工作评估的是现有模型，未提出新模型。数据集：论文明确承诺将发布EchoMind（TTS版和人工录音版）的所有数据、元数据及标注协议。获取方式未具体说明（预计会开源）。 Demo：未提供在线演示信息。复现材料：论文附录详细说明了音频输入统计（A.1）、对话数据示例（A.2）、人工录音细节（A.3）、MCQ构建示例（A.4）以及所有评估指标的定义和标准（B.2， B.4），为复现评估流程提供了充分信息。引用的开源项目：论文在数据构建和评估中使用了多种开源或公开工具/模型，包括： TTS：Doubao TTS API（火山引擎）， GPT-4o-mini-TTS（OpenAI）语音/音频模型：emotion2vec（Ma et al., 2024）， Gemini-2.5-Pro（Comanici et al., 2025）评估工具：NISQA， UTMOS， BERTScore， Qwen3-Embedding-0.6B 数据集：AudioCaps（Kim et al., 2019）总结：论文承诺开源核心数据与代码，并提供了详尽的构建与评估细节，开源计划较为明确。 📌 核心摘要要解决什么问题：现有的语音大模型（SLM）评估基准通常孤立地评估语言理解、声学识别或对话能力，缺乏一个能够系统性评估模型在整合非语言语音线索（如情感、副语言、环境音）进行共情对话能力的统一框架。方法核心是什么：提出EchoMind，一个关联的多层级基准，模拟人类共情对话的认知过程，包含三个连续任务层级：语音内容理解（ASR & MCQ）、语音线索感知（MCQ）、集成推理（MCQ）和开放式共情对话生成。所有任务使用语义中性的相同脚本，但配以不同的语音风格（目标表达、中性、替代表达），以隔离和测试语音表达本身的影响。与已有方法相比新在哪里：EchoMind是首个将理解、推理、对话三个评估层级通过共享上下文（相同脚本+不同语音）关联起来的基准，支持对模型内部认知链的端到端分析。它构建了一个覆盖3大类、12小类、39个具体语音属性的共情框架，并设计了多维度的评估指标（包括音频级的情感对齐度）。主要实验结果如何：对12个先进SLM的测试表明：模型在文本内容理解上表现良好（如WER和SemSim分数较高），但在语音线索理解和推理上能力参差不齐，闭源模型GPT-4o-Audio通常优于开源模型。在开放式对话生成中，尽管回复在上下文相关性、自然度等方面得分尚可，但在需要利用语音线索来调整回复语气和情感的维度（CSpeechRel, VES）上得分普遍不高，最高分也未超过4/5。人工评估验证了自动指标的有效性，并发现即使是GPT-4o-Audio，其回复的语音风格也与人工期望存在差距。分析揭示了模型对提示词敏感、对人声的鲁棒性弱于合成语音，以及当提供理想语音线索信息时，模型的共情回复潜力（上界）会显著提升。模型语音理解准确率(%) 推理准确率(%) 对话-VES分数对话-CSpeechRel分数 GPT-4o-Audio 66.25 68.04 3.34 3.42 Qwen2.5-Omni-7B 60.87 57.70 3.24 2.92 Step-Audio 40.74 45.90 3.20 3.09 (其他11个模型数据见论文表4) 表1：关键指标对比摘录（模型、语音理解、推理、对话相关主观分数）。数据来源：论文表4。 ...