语音对话系统

How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue

📄 How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue #语音对话系统 #流式处理 #语音大模型 #语音打断处理 ✅ 6.0/10 | 前25% | #语音对话系统 | #流式处理 | #语音大模型 #语音打断处理 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Hui Lu（The Chinese University of Hong Kong）通讯作者：论文作者列表后标注“Corresponding author”，但未明确指名。作者列表：Hui Lu (The Chinese University of Hong Kong)、Xueyuan Chen (The Chinese University of Hong Kong)、Huimeng Wang (The Chinese University of Hong Kong)、Shuhai Peng (Tsinghua University)、Shiyin Kang (SenseTime Research)、Xixin Wu (The Chinese University of Hong Kong)、Zhiyong Wu (Tsinghua University) 💡 毒舌点评本文针对全双工语音对话中一个关键但被忽视的架构问题——“用户流路由”——进行了系统性研究，通过一个精心设计的统一框架对通道融合与交叉注意力路由两种策略进行了公平对比。其价值在于首次将该问题明确化、轴心化，并提供了清晰的实证权衡关系（语义整合 vs. 上下文鲁棒性），对系统设计有直接指导意义。短板在于，作为一项对比研究，其结论严重依赖于一个1.7B规模的骨干LLM和固定的训练配方。模型能力是否足够代表当前水平、结论是否可扩展至更大模型，均存疑。此外，对交叉注意力路由性能较差的根源剖析不足，使得“权衡”的成因略显模糊，削弱了洞察的深度。 ...

MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

📄 MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes #语音对话系统 #多模态模型 #基准测试 #数据集 #大语言模型 ✅ 7.0/10 | #语音对话系统 #多模态模型 | arxiv 👥 作者与机构第一作者：Maximillian Chen (哥伦比亚大学计算机系) 通讯作者：Yohan Jo (首尔大学) 作者列表： Maximillian Chen (哥伦比亚大学计算机系，现供职于Google) Xuanming Zhang (哥伦比亚大学计算机系，*共同贡献) Michael Peng (哥伦比亚大学计算机系) Zhou Yu (哥伦比亚大学计算机系) Alexandros Papangelis (哥伦比亚大学计算机系，现供职于Apple) Yohan Jo (首尔大学，对应作者) 💡 毒舌点评本文最大的亮点在于构建了一个全面且精心设计的智能家居语音交互基准，将多模态理解、工具调用和状态跟踪紧密结合，填补了该领域评估工具的空白。然而，其核心贡献是“定义问题和提供工具”而非“解决问题”，模型部分的实验更像是利用现有闭源大模型作为“天花板”展示，缺乏对模型本身架构创新的探讨，使得论文在技术创新深度上稍显不足。 📌 核心摘要解决的问题：在智能家居物联网场景中，开发能理解用户语音指令、操作现实世界设备并管理复杂交互状态（如歧义、纠正、冗余）的多模态语音助手面临重大挑战。现有任务导向对话（TOD）基准未能充分涵盖物理空间约束、动态状态跟踪和混合主动交互模式。方法核心：提出MIST，一个合成的多轮、语音驱动的工具调用基准数据集及其生成框架。该框架采用神经符号方法：首先采样多样化家庭配置（房间、设备、用户特征），然后通过概率编排器生成包含六种核心交互模式（动作执行、例程更新、纠正循环、歧义解决、冗余拒绝、状态更新）的对话，确保每轮对话在模拟的“数字孪生”家庭状态上是物理一致的。新意：与已有TOD任务或纯文本工具调用任务相比，MIST首次系统地将语音输入、多设备状态跟踪、复杂空间逻辑和混合主动交互模式整合在一个统一的评估基准中。其数据生成框架可扩展，能持续产生符合物理约束的新数据。主要结果：实验评估了多个开放权重和闭源多模态大模型。闭源模型（尤其是Gemini 2.5 Pro）在代码生成（执行匹配79.53%，精确匹配65.56%）和对话智能（F1 46.00，准确率66.73%）上显著优于开放权重模型（最佳开放模型Qwen 3 Omni的精确匹配仅为47.19%，F1为14.54）。错误分析显示，开放模型主要问题是过度触发和目标设备错误，而闭源模型主要问题是参数值错误。即使最强闭源模型也存在显著改进空间（如73.0%的确认请求被遗漏）。实际意义：MIST为评估和提升面向物理世界的多模态语音助手提供了高质量的测试平台，其可扩展的数据生成框架有助于合成训练数据，推动开放权重模型在这一重要应用场景中的发展。主要局限性：论文明确提到，当前评估主要基于闭源模型性能作为参照，开放权重模型表现不佳，任务具有挑战性。潜在局限包括：合成数据与真实世界交互的差距、评估指标（尤其是Exact Match）可能对合理变体过于严苛、缺乏端到端语音流式交互的评估。 🔗 开源详情代码：论文中未提供明确的代码仓库（如 GitHub）链接。论文中提及发布了一个“可扩展的数据生成框架”，并指向项目主页 https://billyzhang24kobe.github.io/mist-smarthome，但未说明代码的具体托管位置。模型权重：论文中未提及发布任何模型权重。论文评估了多个开源（如 Qwen Audio, Soundwave）和闭源（如 Gemini 2.5）多模态模型，但这些是外部模型，并非本文发布。数据集：数据集名称为 MIST (Multimodal Interactive Speech-based Tool-calling Dataset)。论文中提到发布该数据集，但未提供直接的下载链接（如 HuggingFace）。唯一的信息是指向项目主页 https://billyzhang24kobe.github.io/mist-smarthome，数据集可能需通过该页面获取。未提及具体的开源协议。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及提供如训练配置、预训练检查点等复现材料。论文在附录中详细描述了数据生成框架的实现细节（如环境模拟、用户角色、声学参数等），并提供了用于生成数据的系统提示词（如 Table A6, Table A8），这些信息有助于理解或扩展数据生成过程。论文中引用的开源项目：论文中评估了以下模型作为基线，但未提供这些模型的官方链接： Qwen Audio Qwen 2 Audio Soundwave Qwen 3 Omni Gemini 2.5 Flash-Lite, Gemini 2.5 Flash, Gemini 2.5 Pro（闭源模型） 🏗️ 方法概述和架构 MIST系统由两个核心部分组成：一个可扩展的神经符号数据生成框架和一个基于现有MLLM的基准评估流程。 ...

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #自回归模型 #端到端 #多语言 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #端到端 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jingyao Gong (Independent Researcher) 通讯作者：Jingyao Gong (gongjy.cs@foxmail.com) 作者列表：Jingyao Gong (Independent Researcher) 💡 毒舌点评亮点：这篇论文堪称“开源全模态”的典范级实践，从模型架构、训练数据、到中间层状态桥接等每一个“工程细节”都被清晰设计并完整开源，为研究社区提供了一个可真正拆解和复现的语音原生全模态研究基座。短板：然而，在0.1B这个参数规模下，模型在中长英文语音生成上的“音素漂移”和“漏词”问题暴露了其表达能力的上限，且评估侧重于内部一致性而非端到端的任务性能或用户感知，使其更像是一个优雅的技术验证原型，而非一个能直接解决实际问题的强劲方案。 📌 核心摘要要解决什么问题：旨在探索并证明在极小参数规模（0.1B）下，构建一个完整的、可复现的语音原生全模态（文本/语音/图像输入 -> 文本/流式语音输出）交互循环的可行性。方法核心是什么：采用分离的Thinker（负责语义推理）和Talker（负责语音生成）架构。核心创新在于：a) 使用Thinker的中间层隐状态（而非最终层）作为语义桥梁注入Talker，以提供更纯净的声学条件；b) 对Mimi八码本的嵌入和输出头采用低秩适配器参数化，实现参数高效接口；c) 设计并公开了完整的多模态序列格式和训练数据集。与已有方法相比新在哪里：不同于追求大规模和高性能的前沿全模态模型，本文专注于在小规模、全开源、可严格复现的约束下，系统研究并量化影响全模态循环的关键设计选择（如桥接层位置、Talker宽度、码本接口等）。同时，模型通过上下文提示（参考码本流+说话人嵌入）实现灵活的声音克隆，而非依赖独立的TTS模块。主要实验结果如何：论文报告了两个关键评估结果：一致性（CER）：在Thinker-Talker一致性评估中，Dense和MoE变体的平均CER分别为0.0897和0.0900。消融实验表明，768维的Talker宽度是稳定工作的必要条件。语音克隆（CAM++相似度）：整体声音克隆相似度分别为0.5995（Dense）和0.5937（MoE），相比仅使用参考码本的基线有提升。在与Mini-Omni2等更大模型的跨模型英文T2A对比中，minimind-3o在短句（≤15词）上CER/WER接近，但在中长句（16-30词）上差距显著（如minimind-3o CER: 0.1327 vs. Mini-Omni2 CER: 0.0062）。实际意义是什么：为语音大模型/全模态模型的研究提供了一个完全透明、可修改、可在消费级GPU（4x RTX 3090）上复现的小规模研究平台。它证明了在资源受限下，通过精心设计桥接层、参数高效接口和开放数据，也能构建并训练一个功能完整的语音原生循环。主要局限性是什么： a) 性能天花板低：在语音自然度和长文本稳定性上远落后于大型模型；b) 视觉通路弱：使用冻结的SigLIP2和简单MLP投影器，更接近简化的图像描述而非强大的视觉理解；c) 评估窄：主要评估输出文本一致性（CER/WER），缺乏自然度、延迟、鲁棒性等更全面的评估。 🔗 开源详情代码：https://github.com/jingyaogong/minimind-o 模型权重： HuggingFace：https://huggingface.co/collections/jingyaogong/minimind-o ModelScope：https://modelscope.cn/collections/gongjy/minimind-o 数据集：论文中提及了公开发布的训练数据集，用于复现模型。具体数据集（sft_t2a, sft_i2t, sft_a2a）的Parquet格式文件及获取方式，应通过上述代码仓库或模型集合页面获取。论文未提及单独的、独立的数据集存储库链接。 Demo：论文中未提及独立的在线演示链接。但附录B指出，代码发布中包含了一个HTML演示页面，其中包含可播放的音频示例。复现材料：训练配置：论文详细说明了训练流程（train_sft_omni.py）、数据模式（sft_t2a, sft_i2t, sft_a2a）、训练超参数（如学习率、批大小）、硬件要求（4张NVIDIA RTX 3090 GPU）和各阶段训练时间。检查点：模型权重（检查点）已发布在HuggingFace和ModelScope上。附录：提供了详细的模块配置、参��计数和评估结果表格。论文中引用的开源项目： MiniMind (基础语言模型)：https://github.com/jingyaogong/minimind SenseVoice-Small (音频编码器)：论文中引用其来源为 An and others, 2024，但未提供直接链接。通常可通过其官方仓库获取，例如：https://github.com/FunAudioLLM/SenseVoice SigLIP2 (视觉编码器)：论文中引用其来源为 Tschannen et al., 2025，未提供直接链接。 Mimi (音频编解码器)：论文中引用其来源为 Défossez et al., 2024，未提供直接链接。这是Moshi模型的一部分。 CAM++ (说话人嵌入)：论文中引用其来源为 Wang et al., 2023b，未提供直接链接。 Qwen3-ASR-Flash (用于评估的ASR)：论文中引用但未提供链接。 Qwen-VL-Plus (用于视觉评估的参考生成)：论文中引用但未提供链接。 🏗️ 模型架构 Figure 1: MiniMind-O 架构总览。音频和图像由冻结的编码器处理，通过MLP投影器注入到Thinker对应模态的占位符位置。一个中间层的Thinker状态与Mimi码本历史被独立的Talker融合，以预测八个码本层的流式语音。 ...

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #端到端 #多模态模型 #流式处理 #语音克隆 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jingyao Gong（Independent Researcher，独立研究者）通讯作者：未明确说明（论文中仅提供第一作者邮箱 gongjy.cs@foxmail.com，未指明通讯作者）作者列表：Jingyao Gong（Independent Researcher）毛舌点评该论文的亮点在于它将一个完整的“听-看-想-说”全模态闭环在0.1B的小模型规模上实现并彻底开源，包括训练代码、模型权重和处理过的多模态训练数据集，为社区提供了一个可完全复现和修改的小型研究基线。然而，其短板也十分明显：受限于极小的模型规模，在语音自然度、长句稳定性和复杂指令跟随能力上与大模型存在显著差距，其评估也主要集中在内部一致性而非端到端的用户体验，更像一个验证技术可行性的原型而非实用系统。核心摘要问题：旨在探索在极小参数规模（0.1B）下，构建一个能够同时处理文本、语音、图像输入并输出文本与流式语音的端到端全模态模型的可行性与设计范式。方法：采用“思考者-说话者”分离架构。“思考者”是完整的MiniMind语言模型主干，接收文本、经过投影的语音（SenseVoice）和图像（SigLIP2）特征；“说话者”是一个独立的4层MiniMind模块，接收来自思考者中层的语义桥接状态和自回归的Mimi语音编码历史，以预测8层的Mimi码本用于生成流式语音。说话人身份通过参考语音编码和预计算的CAM++嵌入在说话者模块中进行条件化。创新：核心创新在于为小规模全模态模型提出的三项设计选择：(1) 使用中层语义桥接，而非首层或末层状态，为说话者提供更干净的语义条件；(2) 公开了用于训练的多模态序列格式和数据集；(3) 为8个Mimi码本设计了参数高效的共享基础加低秩适配器的嵌入与输出头接口。主要实验结果：一致性：在内部一致性评估中，密集模型和MoE模型在平均字符错误率（CER）上分别为0.0897和0.0900。语音克隆：使用CAM++说话人嵌入进行评估，密集模型和MoE模型的总体语音克隆相似度（余弦相似度）分别为0.5995和0.5937。跨模型对比：在简短英文问答T2A一致性上，0.1B的MiniMind-O（Avg CER: 0.0964， Avg WER: 0.0973）落后于0.5B的Mini-Omni（Avg CER: 0.0101， Avg WER: 0.0185）和Mini-Omni2（Avg CER: 0.0371， Avg WER: 0.0431）。消融实验：说话者模块的隐藏维度从768降至512或384时，CER显著恶化。低秩适配器消融显示输出头的秩比嵌入层的秩更重要。实际意义：提供了一个完全可公开审查和复现的小规模全模态交互系统，降低了该领域的研究门槛。其明确的设计选择（如中层桥接）和完全开源的闭环数据，为分析和改进小模型全模态架构提供了可控的研究对象。主要局限性：语音自然度和长句生成的稳定性不足；视觉通路依赖冻结编码器和固定占位符，能力有限；评估主要关注内部转录一致性，未充分评估自然度、鲁棒性和安全性等。详细分析 01.模型架构 MiniMind-O 是一个端到端的全模态模型，其核心架构遵循“思考者-说话者”分离范式，整体数据流如图1所示。 ...

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #语音大模型 #微调 #自回归模型 #实时处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #微调 | #语音大模型 #自回归模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yi-Jen Shih（The University of Texas at Austin, Meta Superintelligence Labs）通讯作者：Michael L. Seltzer（Meta Superintelligence Labs）作者列表：Yi-Jen Shih（The University of Texas at Austin, Meta Superintelligence Labs）、Desh Raj（Meta Superintelligence Labs）、Chunyang Wu（Meta Superintelligence Labs）、Wei Zhou（Meta Superintelligence Labs）、SK Bong（Meta Superintelligence Labs）、Yashesh Gaur（Meta Superintelligence Labs）、Jay Mahadeokar（Meta Superintelligence Labs）、Ozlem Kalinli（Meta Superintelligence Labs）、Michael L. Seltzer（Meta Superintelligence Labs） 💡 毒舌点评这篇论文最大的亮点在于将“边听边想”从一个人机交互概念落实为一套可训练、可控制的技术方案，尤其是提出的“问题完整度”指标，巧妙地将语义完备性与生成时机联系起来。然而，一个显眼的短板是，其核心指标“问题完整度”的计算严重依赖于外部LLM（如Llama-3-8B-Chat）的预测概率，这在部署时可能带来额外的计算开销和延迟，且该指标的泛化能力（是否对不同LLM稳定）并未充分验证。 ...

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #自回归模型 #多模态模型 #语音合成 #语音识别 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Chao-Hong Tan (Tongyi Fun Team, Alibaba Group) 通讯作者：未明确说明，根据邮箱推测为团队负责人（如tanchaohong.ch@alibaba-inc.com）作者列表：Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (所属机构均为 Tongyi Fun Team, Alibaba Group) 💡 毒舌点评亮点：DrVoice的“双分辨率”设计堪称点睛之笔，通过一个简洁的分组/解分组机制，巧妙平衡了语音处理的计算效率（输入降至5Hz）与生成保真度（SRH在25Hz下精细化生成），在降低近半训练开销的同时性能不降反升，工程落地潜力巨大。短板：论文专注于单向语音生成的对话模式，但真实的人机语音交互需要全双工能力（即能边听边说），作者在局限性中也承认了这一点。目前模型更像一个强大的“单口相声”演员，而非能自然打断和回应的真正对话伙伴。 ...

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音对话系统 #模型评估 #语音情感识别 #音频大模型 ✅ 7.0/10 | 前25% | #基准测试 | #模型评估 | #语音对话系统 #语音情感识别学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Li Zhou（香港中文大学（深圳））通讯作者：Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院），Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）作者列表：Li Zhou（香港中文大学（深圳））、Lutong Yu（香港中文大学（深圳））、You Lyu（香港中文大学（深圳））、Yihang Lin（香港中文大学（深圳））、Zefeng Zhao（香港中文大学（深圳））、Junyi Ao（香港中文大学（深圳））、Yuhao Zhang（香港中文大学（深圳））、Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）、Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院） 💡 毒舌点评这篇论文系统性地构建了首个面向语音大模型共情能力的多层级评估基准，设计框架清晰（理解-推理-对话），并通过控制变量的脚本设计（语义中性+语音风格变化）巧妙隔离了文本与声学信息的贡献，实验全面（覆盖12个主流模型）。然而，作为一项纯评估工作，其核心贡献在于“发现差距”而非“提供解决方案”，且基准本身的构建依赖于现成的语音合成工具（如Doubao TTS、GPT-4o）和人工标注，通用性和抗偏倚能力有待更广泛的验证。 🔗 开源详情代码：论文中提及项目网站 https://hlt-cuhksz.github.io/EchoMind/，并承诺将提供代码，但未给出具体代码仓库链接。模型权重：不适用。本论文是评估基准，不提出新模型。数据集：论文明确表示将公开所有构建的数据（音频文件、元数据、标注协议）。获取方式预计通过上述项目网站。 Demo：论文中未提及在线演示。复现材料：论文承诺提供复现所需的数据、代码和实验配置。附录（A-C）详细描述了数据集构建、任务设计、评估指标、实验设置（提示模板、人工评估流程）等细节，为复现提供了充分信息。论文中引用的开源项目：主要依赖以下开源工具/模型进行评估：Audio Flamingo 3 (Goel et al., 2025), DeSTA2.5-Audio (Lu et al., 2025), VITA-Audio (Long et al., 2025), LLaMA-Omni2 (Fang et al., 2025), Baichuan-Omni-1.5 (Li et al., 2025), GLM-4-voice (Zeng et al., 2024), OpenS2S (Wang et al., 2025c), Qwen2.5-Omni-7B (Xu et al., 2025), Kimi-Audio (KimiTeam et al., 2025), Step-Audio (Huang et al., 2025b), EchoX (Zhang et al., 2025), GPT-4o-Audio (OpenAI, 2024)。以及用于评估的指标模型：Qwen3-Embedding-0.6B, emotion2vec, Gemini-2.5-Pro。 📌 核心摘要要解决的问题：现有的语音大模型（SLM）基准测试往往孤立地评估语言理解、声学识别或对话能力，缺乏对模型整合非词汇声学线索（如韵律、情绪、生理信号）以实现共情对话能力的系统性评估。方法核心：提出了EchoMind基准，这是一个模拟人类共情对话认知过程的层次化评估框架，包含三个相互关联的任务层级：（1）内容与语音理解；（2）整合推理；（3）共情对话生成。所有任务共享语义中性、无情感线索的对话脚本，并通过控制不同的语音风格（目标、替代、中性）来隔离语音表达本身的影响。与已有方法相比新在哪里：EchoMind是首个专注于评估SLM共情能力、且任务间具有关联性的多层级基准。其创新点在于：(a) 构建了覆盖3大维度、12个细分类别、39种声学属性的共情导向评估框架；(b) 设计了从感知到推理再到生成的递进式任务链，并确保任务共享上下文以支持跨层级相关性分析；(c) 引入了针对对话生成响应的多维度（文本和音频）评估指标。主要实验结果：对12个先进SLM的测试表明，即使是SOTA模型（如GPT-4o-Audio）也难以在生成响应中有效利用高表现力的声学线索。例如，在依赖声学线索的文本评估维度“语音信息相关性”（CSpeechRel）上，没有任何模型的平均分超过4分（满分5分）。音频层面的“声乐共情得分”（VES）也普遍较低。模型在“语音风格检测”和“背景声音检测”等理解任务，以及“先行事件推断”和“共情响应选择”等推理任务上表现尤其薄弱。实际意义：该基准为评估和推动SLM向具备真正情感智能的对话系统发展提供了标准化工具，揭示了当前模型在指令遵循、对自然语音变体的鲁棒性以及有效利用声学线索方面的普遍短板，指明了未来研究方向。主要局限性：a) 基准构建高度依赖TTS合成语音，虽然提供了人工录制子集进行对比，但合成语音的自然度和表现力可能存在上限；b) 评估主要依赖自动化指标（包括用大模型评分），虽然进行了人工评估验证，但主观评估成本高，难以大规模进行；c) 作为评估工作，其本身并不提出解决模型共情能力不足的新方法。 🏗️ 模型架构本文提出的EchoMind并非一个AI模型，而是一个评估基准框架。其核心是设计一个模拟人类共情对话认知过程的评估流水线。 ...

End-to-end Listen, Look, Speak and Act

📄 End-to-end Listen, Look, Speak and Act #语音对话系统 #端到端 #多模态模型 #大语言模型 #流式处理 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Siyin Wang (清华大学)， Wenyi Yu (清华大学) [论文中注明两人贡献相等] 通讯作者：Chao Zhang (清华大学) 作者列表：Siyin Wang (清华大学)， Wenyi Yu (清华大学)， Xianzhao Chen (字节跳动)， Xiaohai Tian (字节跳动)， Jun Zhang (字节跳动)， Lu Lu (字节跳动)， Yuxuan Wang (字节跳动)， Chao Zhang (清华大学) 💡 毒舌点评这篇论文的亮点在于其清晰的架构设计（SA-MoE）和全面的任务验证，成功地将“说”和“做”这两个通常分离的能力整合到了一个全双工框架中，向类人交互迈出了扎实的一步。但短板也同样明显：目前所有验证都停留在模拟环境（LIBERO, CALVIN），缺乏真实世界复杂场景的考验，且“同时说话和操作”时性能出现可感知的下降，暴露出当前模型在处理真正高强度并发多任务时仍显吃力。 ...

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #端到端 #多模态模型 #大语言模型 🔥 8.5/10 | 前25% | #语音对话系统 | #扩散模型 | #端到端 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Tianqiao Liu（好未来教育集团 TAL Education Group，暨南大学 Guangdong Institute of Smart Education）通讯作者：Xueyi Li（暨南大学 Guangdong Institute of Smart Education）作者列表：Tianqiao Liu（好未来教育集团，暨南大学）、Xueyi Li（暨南大学）、Hao Wang（北京大学）、Haoxuan Li（北京大学）、Zhichao Chen（北京大学）、Weiqi Luo（暨南大学）、Zitao Liu（暨南大学） 💡 毒舌点评论文对端到端语音模型中文本与音频生成范式错配问题的洞察一针见血，并给出了一个理论上优雅、实验上有效的混合训练框架，是当前S2S建模思路的一次重要升级。但论文对模型推理时块级扩散的计算开销分析着墨不多，且训练数据依赖大量合成语音（如CosyVoice2生成），其在真实复杂声学环境下的泛化能力仍是潜在挑战。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/ai4ed/TtT。模型权重：论文中未提及预训练模型权重（如Pretrain+TtT的检查点）的公开下载链接。数据集：论文中使用的训练数据大多为公开数据集（如AISHELL, LibriSpeech, VoiceAssistant-400K等），但具体的数据处理脚本和混合配方未完全开源。评估数据集如URO-Bench、Audio-QA集等为公开基准。 Demo：论文中未提及提供在线演示（Demo）。复现材料：论文提供了极其详细的训练细节（超参数、优化器设置、训练策略概率）、模型配置（基于Qwen2.5）、以及架构和注意力机制的示意图（图2, 3），并附有详尽的附录。这些构成了坚实的复现基础。引用的开源项目：论文依赖并引用了多个开源项目作为基础组件，主要包括：音频分词器/解码器：GLM-4-Voice (Zeng et al., 2024)。主干LLM：Qwen2.5系列。 ASR评估工具：Whisper (Radford et al., 2023)、Paraformer。 TTS数据生成：CosyVoice2。训练框架：DeepSpeed。论文中提及的开源计划：论文中未提及额外的开源计划（如未来发布模型权重或扩展数据）。 📌 核心摘要本文针对现有端到端语音到语音（S2S）模型用统一自回归（AR）方法建模文本和音频所存在的范式错配问题，提出了“Text-to-Talk”（TtT）框架。核心问题在于，文本生成是强序列依赖的（目标-目标依赖），而音频生成更依赖输入源（源-目标依赖），强行用AR约束音频会引入不必要的误差传播。方法核心是设计一个混合生成框架，在同一个Transformer中，对文本使用标准AR建模，对音频段使用吸收离散扩散（一种NAR范式）建模，并证明了这种联合训练目标是目标联合分布的上界。与已有方法相比，新在两点：1）首次识别并形式化了文本与音频在依赖结构上的不对称性；2）提出了一个统一的架构和训练框架来适配这种不对称性，而非强行统一生成范式。主要实验结果显示，TtT在Audio-QA、ASR、AAC和URO-Bench等多个基准上，一致超越了纯AR和纯NAR的基线模型。例如，在3B参数规模下，TtT在多个ASR数据集上的WER大幅优于Qwen2.5-3B (AR)，在Audio-QA任务上也显著提升。实际意义在于，为构建更自然、高效、符合生成特性的端到端语音交互系统提供了新思路。主要局限性包括：1）块级扩散推理的效率需要进一步评估；2）模型性能对大规模多模态预训练数据（约200B tokens）有一定依赖；3）尽管在轻量级模型中表现优异，但与某些超大参数量模型（如GLM-4-Voice）在综合基准上仍有差距。 ...

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xiang Li（北京邮电大学网络与交换技术国家重点实验室，深圳大数据研究院，香港中文大学（深圳），深圳环域研究院）通讯作者：Jiale Han（香港科技大学）作者列表：Xiang Li（北京邮电大学网络与交换技术国家重点实验室，深圳大数据研究院，香港中文大学（深圳），深圳环域研究院），Jiabao Gao（香港中文大学（深圳）），Sipei Lin（香港中文大学（深圳）），Xuan Zhou（香港中文大学（深圳）），Chi Zhang（香港中文大学（深圳）），Bo Cheng（北京邮电大学网络与交换技术国家重点实验室），Jiale Han（香港科技大学），Benyou Wang（深圳大数据研究院，香港中文大学（深圳），深圳环域研究院） 💡 毒舌点评亮点是首次对语音到语音系统进行了图灵测试，并构建了一个包含18个细粒度维度的诊断框架，不仅指出了“通过/失败”，更深入剖析了“为何失败”，将瓶颈精准定位在非语义层面。短板在于，作为开创性工作，其评估的S2S系统数量和对话场景多样性仍有限，且伪人对话的脚本部分由GPT-4o生成，可能引入了额外的偏差。 🔗 开源详情代码：论文中提供了GitHub仓库链接：https://github.com/Carbohydrate1001/Turing-Test。模型权重：论文中明确提到公开了模型（“Our code, dataset, and model are publicly available”），但未直接提供权重下载链接，需从上述GitHub仓库获取。数据集：论文中明确提到公开了数据集，同样需从上述GitHub仓库获取。 Demo：论文中提到了部署了一个游戏化的在线评测平台，但未提供公开的在线演示链接。复现材料：提供了极其详细的复现信息，包括：数据收集的完整流程、参与者画像、初始化策略（附录B）。 Turing测试平台的设计细节（附录C）。 18个细粒度维度的定义、标注指南、标注员信息及质量保证流程（附录D）。 AI评委模型的训练框架、嵌入读取策略消融、模型消融、超参数调优（网格搜索与敏感性分析）的完整细节（附录E）。论文中引用的开源项目：论文在构建伪人对话数据集时，引用了两个开源TTS模型：Nari Dia-1.6B (nari-labs, 2025) 和 Spark-TTS (Wang et al., 2025c)。在评估模型泛化性时，引用了CosyVoice2、Fisher和MultiDialog数据集。 📌 核心摘要本文旨在回答一个关键问题：当前的语音到语音（S2S）系统能否像人类一样进行对话？为解决此问题，作者首次对S2S系统实施了图灵测试。核心方法是构建一个包含人-人、人-机和伪人（TTS合成）对话的高质量数据集，通过一个游戏化的在线平台收集了近3000次人类判断。与已有工作相比，新在于将图灵测试范式首次全面引入端到端S2S评估，并超越二元通过/失败的结论。主要实验结果显示，所有评估的9个最先进的S2S系统均未通过图灵测试，成功率最高仅为0.31（人类为0.87）。为了诊断失败原因，论文提出了一个包含5大类18个细粒度维度的“拟人度”分类法，并对数据进行了人工标注。分析表明，当前S2S系统的瓶颈不在语义理解（如逻辑连贯性、记忆一致性接近人类水平），而在于韵律特征（如节奏、重音）、情感表达不足以及过度恭维、书面化的“机械人格”。此外，论文探索了使用AI作为评委的可能性，发现9个现成多模态模型表现不佳，因此提出了一个基于Qwen2.5-Omni微调的可解释评委模型，该模型先预测18个细粒度维度分数，再通过线性分类器做出人/机判断，其在测试集上的二分类准确率达到96.05%，显著优于人类评委（72.84%）和基线模型。这项工作的意义在于为S2S系统建立了一个系统化的拟人度评估与诊断框架，并指明了超越语义理解、在副语言和情感个性化方面突破的研究方向。主要局限性是评估的系统和场景覆盖范围可能无法代表整个S2S领域，且伪人对话的脚本部分依赖大语言模型生成。 ...