📄 DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action
#语音对话系统 #多模态模型 #大语言模型 #端到端 #基准测试
✅ 7.8/10 | 前25% | #语音对话系统 | #多模态模型 | #大语言模型 #端到端 | arxiv
学术质量 5.2/7 | 影响力 1.6/2 | 可复现性 1.0/2 | 置信度 高
👥 作者与机构
- 第一作者:Haoyang Zhang (StepFun, Peking University, Nanyang Technological University)
- 通讯作者:Fei Tian (StepFun)
- 作者列表:Haoyang Zhang*(StepFun,北京大学,南洋理工大学),Jun Chen*(StepFun),Donghang Wu(南洋理工大学),Yuxin Li(StepFun,南洋理工大学),Yuxin Zhang(StepFun,上海交通大学),Xiangyu Tony Zhang(StepFun,新南威尔士大学),Che Liu(StepFun,帝国理工学院),Qingjian Lin(StepFun),Yizhou Peng(南洋理工大学),Hexin Liu(南洋理工大学),Eng Siong Chng(南洋理工大学),Chao Yan(StepFun),Boyong Wu(StepFun),Yechang Huang(StepFun),Xuerui Yang(StepFun),Fei Tian†(StepFun)(*表示同等贡献,†表示通讯作者)
💡 毒舌点评
亮点:论文的“双流三通道”架构设计优雅,通过引入速率受限的文本动作通道,将规划、工具调用与语音生成解耦到独立的时钟同步通道,直观地解决了全双工对话中“边说边做”的核心矛盾。同时,构建了专用的DuplexSLA-Bench基准,弥补了现有评测体系对联合评估轮次控制和在线工具调用能力的空白。短板:尽管系统设计完整,但关键的训练细节(如损失权重、硬件、解码策略)和部分超参数(如优化器、学习率)缺失,使得一个77B参数大模型的复现门槛极高。此外,所有评估均在自建的合成基准上进行,缺乏在真实世界或通用对话基准上的验证,结论的泛化性存疑。
📌 核心摘要
- 问题:现有的全双工语音对话模型在连续监听和生成响应的同时,缺乏原生支持对话内规划和工具调用的能力。基于轮次的级联系统(VAD-ASR-LLM-TTS)引入额外延迟,且能量VAD无法区分停顿与打断;试图在助手文本通道中嵌入工具调用会打断语音生成的平滑性。
- 核心方法:提出DuplexSLA,一个原生全双工的“语音-语言-动作”基础模型。其核心是双流三通道的统一架构:一个连续的用户音频通道,一个离散的助手语音通道(采用TA4布局),以及一个速率受限的文本动作通道。三者在共享的160毫秒时间块网格上由同一个77B参数的骨干网络联合解码。动作通道承载延迟转录、规划文本、轮次控制标签(如`
` 和 ` `。)或结构化的工具调用JSON,与助手语音并行输出。 - 新在哪里:与现有全双工模型相比,主要创新在于引入了专门的、时间同步的“动作通道”。该通道:(1) 将语义驱动的轮次控制决策内置于骨干网络中,取代了外部的语义VAD;(2) 使规划文本和结构化工具调用可以在不中断助手语音生成的情况下在线发出。这两个能力均在共享时钟下实现。
- 主要结果:作者构建了专用的DuplexSLA-Bench基准(2100个案例)。实验表明:
- 在工具调用任务上,DuplexSLA的平均准确率(85.56%)与ASR+LLM级联系统(91.33%)有差距,但平均延迟大幅降低(0.64秒 vs 2.77秒,约4倍提升)。在回声动作场景中,两者准确率接近,但延迟优势巨大。
- 在全双工轮次控制任务上(上下文预填充设置),DuplexSLA在所有四种场景中均实现了亚秒级响应延迟(0.27-0.40秒),并显著优于商用API和开源基线。尤其在回声反馈检测上达到98.33%准确率,而其他基线最高仅40%。
- 在无上下文预填充的更苛刻设置下,DuplexSLA仍是唯一兼具高准确率(94.34%平均)和亚秒级延迟(0.30秒)的系统。
- 实际意义:该工作为构建更自然、响应更及时、能“边听边说边做”的语音交互智能体提供了可行的架构范式和评估标准,推动了语音助手从“轮次式”向“真正的全双工交互”演进。
- 主要局限性:系统依赖大规模合成数据和特定的工具集(50个函数),其在开放域、真实世界复杂交互中的泛化能力有待验证。模型规模庞大(77B),对部署成本和实时推理硬件要求严格。此外,评估完全在作者自建的合成基准上进行,缺乏在真实交互数据或现有通用对话基准上的验证。
🔗 开源详情
- 代码:https://github.com/hyzhang24/DuplexSLA
- 模型权重:论文中未提及模型权重的具体发布链接或信息。
- 数据集:论文中未提及数据集的获取链接或开源协议。文中描述了数据构建流程和训练数据配比,但未说明合成数据集是否公开。
- Demo:https://github.com/hyzhang24/DuplexSLA (论文摘要明确指出交互式演示(interactive demos)与此项目页面和评估套件一同发布在此链接)
- 复现材料:论文中提供了部分复现信息,包括:
- 模型架构:双流三通道的块级序列化格式(§2, 图1)。
- 训练配方:两阶段训练(CPT和后训练),具体数据混合比例和训练目标(§3.2, §4, 图5, 表2)。
- 损失函数:带有全双工感知掩码和重加权的交叉熵损失(§4.3)。
- 评估基准:DuplexSLA-Bench的详细构成和评估协议(§5.1, 表3, 表4, 附录C)。
- 附录:提供了具体的块级序列化案例研究(附录A)、动作词汇表(附录B)、工具模式(附录C表11)、动作对象模式(附录E)和推理服务说明(附录D)。
- 论文中引用的开源项目:论文提及了多个用于对比的模型或基准,但未提供其具体的开源链接。包括:
- Step-Audio 2 mini(模型初始化来源,论文中未提供链接)
- Freeze-Omni, PersonaPlex, MiniCPM-o, gemini-3.1-flash-live, gpt-realtime-1.5(用于评估对比,论文中未提供链接)
🏗️ 方法概述和架构
整体流程概述:DuplexSLA是一个端到端的自回归语音语言模型。其输入为在统一160毫秒时钟下分块对齐的用户音频流、助手语音历史和动作历史,输出为下一时间块对应的助手语音单元序列(TA4格式)和动作文本序列。整个处理流程在一个77B参数的Transformer解码器骨干网络内完成,无需外部级联模块。
主要组件/模块详解:
- 双流三通道数据格式:
- 用户通道:每160毫秒的块包含两个80毫秒的因果用户音频特征,由前端编码器提取。特征是因果的,确保了流式处理。
- 助手通道:每块输出一个TA4单元,包含一个文本锚定符(Text Anchor, T)和四个40毫秒的离散语音令牌(Audio Tokens, A)。文本锚定符可以是实际文本、静音标记(
<vad_silence>)或填充标记(<tts_pad>)。 - 动作通道:每块输出最多10个文本令牌,内容包括延迟转录文本、规划文本、轮次控制标签(如`
` 和 ` `。, <response>)或结构化的工具调用JSON(由<|toolcall_begin|>...<|toolcall_end|>包裹)。该通道是速率受限的,超出预算的令牌会按FIFO规则溢出到下一个块。
- 序列化与自回归解码:在一个时间块内,三个通道的数据被序列化为一个单一的令牌序列供LLM骨干网络处理,顺序为:
<|user_audio_begin|>+ 用户音频特征 +<|user_audio_end|>+<|assistant_audio_begin|>+ TA4单元 +<|assistant_audio_end|>+ 动作文本 +<|action_end|>。骨干网络以自回归方式预测当前块的助手TA4单元和动作文本,同时观测(但不生成)用户音频特征。<|action_end|>标记确保了每个块严格对齐到160毫秒时钟。 - 原生交互控制:通过动作通道的标签,模型内部实现打断、暂停和回声反馈。例如,当检测到用户真正的插话时,模型会在动作通道发出
<interrupt>标签,并在接下来的几个块中将助手TA4切换为静音标记,从而实现快速让出话语权。这些决策基于模型内部的语义状态,而非外部模块。 - 在线规划与工具调用:规划文本和工具调用JSON同样被输出到动作通道。由于该通道与助手语音通道在时间上对齐但逻辑上分离,模型可以在继续生成语音(保持连贯)的同时,在动作通道发出工具调用指令。这支持了“回声触发工具调用”(助手说话时用户插入不相关指令)和“多动作工具调用”(一个用户请求分解为多个并行工具调用,按用户请求语义顺序在连续块中发出)等复杂场景。
- 动作通道设计与溢出处理:动作通道的内容按一个FIFO队列处理,键值为语义触发时间(对齐到块索引)。如果一个动作(规划文本+工具调用JSON)在单个块内超出10个令牌的预算,其剩余部分会溢出到后续块中,而不会打断当前块的助手TA4生成。后续触发的动作会等待队列清空。这保证了工具调用的时间戳明确性(锚定在规划文本开始的块)和助手语音的连续性。
组件间的数据流与交互:
- 用户音频特征、助手语音历史和动作历史被拼接成一个长序列,作为LLM骨干网络的输入。
- 骨干网络基于此输入,联合预测下一时间步的助手语音令牌和动作文本令牌。
- 预测出的助手语音单元和动作文本被送回,作为下一步的输入历史,形成一个自回归循环。
- 动作通道的决策(如打断)会直接影响后续块中助手通道的生成内容(切换为静音),这体现了两个输出通道间的紧密耦合。
- 训练中采用的双路ASR监督(用户通道和助手通道的延迟转录)强制模型学习音频与动作文本在时间块上的精确对齐,这是实现低延迟工具调用的关键。
关键设计选择及动机:
- 动作通道独立化:将规划和工具调用从助手文本通道分离出来,动机是避免工具调用JSON打断TA4音频令牌生成的平滑性,同时为每个动作对象提供明确的时间戳(块索引),便于下游执行和延迟评估(§2.6)。
- 固定块时钟与速率限制:采用固定的160毫秒块时钟,是为了确保模型推理能满足实时交互的延迟要求。对动作通道进行每块10个令牌的预算限制,是权衡表达能力和实时解码成本(77B模型在160ms内需完成解码)的务实选择(§2.3)。
- 两阶段训练:第一阶段持续预训练(CPT)让骨干网络适应三通道格式并建立时间对齐先验(通过大规模双路ASR数据);第二阶段后训练专注于注入目标交互能力(轮次控制、工具调用)。这种划分是数据效率最高的方案(§4.4)。
架构图/流程图:
- 图1 清晰地展示了核心的“双流三通道”数据格式和单骨干网络解码流程。左侧是每个160ms块内三个通道的结构和序列化方式。右侧表明,LLM骨干网络接收来自这三个通道的历史信息,并联合输出下一时间块的助手TA4和动作文本,所有操作在同一个时钟下进行。
- 图2 通过两个具体示例阐释了原生交互控制的工作原理。左图(a)展示了回声反馈场景:用户的简短确认被模型识别,动作通道发出
<backchannel>标签,但助手语音保持不变。右图(b)展示了打断场景:当用户在反馈后开始新的陈述时,模型在检测到语义变化后发出<interrupt>标签,并在极短的延迟内停止助手语音。 - 图3 展示了动作通道如何支持在线规划与工具调用。图(a)是回声触发工具调用:用户在助手说话时插入一个不相关的指令,模型在动作通道生成工具调用,同时助手语音继续。图(b)是多动作工具调用:一个包含多个意图的用户请求被分解为三个时间对齐的工具调用,它们依次出现在连续块的动作通道中,与助手语音生成并行。
- 附录A 提供了具体的逐块序列化案例研究,包括用户通道ASR、助手通道ASR、包含规划与工具调用的双工对话、打断和回声反馈案例。这些示例直观展示了三通道格式在实际数据中的表现,以及溢出规则的应用。
💡 核心创新点
- 双流三通道统一架构:这是最核心的架构创新。之前的方法要么是级联管线,要么是双流模型(用户音频、助手语音)。DuplexSLA首次提出将用户音频流、助手语音流和文本动作流三者统一到一个共享时钟和单一骨干网络中进行联合自回归解码。动作通道为规划、工具调用和轮次控制提供了专用的、时间戳明确的载体,其非平凡性在于为每个动作对象提供了独立的时间戳文本通道(§1, §2.6)。
- 原生语义驱动的轮次控制:通过将打断、暂停、回声反馈等决策内置于动作通道的输出标签中,模型能基于上下文语义直接控制语音生成的启停。这消除了外部语义VAD模块的延迟和信息瓶颈,使交互控制更敏捷、更准确(§2.4)。
- 在线规划与工具调用:动作通道使得模型可以在不停止语音生成的情况下,异步地输出规划文本和结构化工具调用。这实现了真正的“边想、边说、边做”,解决了传统轮次式代理在工具调用时产生的显著延迟问题,并支持回声触发和多动作等复杂场景(§2.5)。
- 专用全双工评估基准(DuplexSLA-Bench):针对现有基准无法联合评估轮次控制和在线工具调用的不足,论文构建了一个包含1200个轮次控制案例和900个工具调用案例的新基准,并定义了兼顾准确率和时间延迟的评估协议(§5.1)。
- 面向全双工的数据构建流水线:为了获得符合三通道格式的训练数据,论文描述了一套从原始对话出发,经过LLM标注、TTS合成、强制对齐和动作标签合并的完整数据构建流程(§3, 图4)。
📊 实验结果
论文在作者构建的DuplexSLA-Bench(2100个案例)上进行了全面评估,主要对比了DuplexSLA与ASR+LLM级联系统、商用API以及开源全双工模型。
1. 工具调用结果(900个案例)
| 模型 | 平均 (3种模式) | 单动作 | 多动作 | 回声动作 | ||||
|---|---|---|---|---|---|---|---|---|
| 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | |
| ASR + LLM 系统 | 91.33 | 2.77 | 89.33 | 2.33 | 89.33 | 4.71 | 95.33 | 1.27 |
| DuplexSLA | 85.56 | 0.64 | 85.67 | 0.67 | 75.00 | 0.68 | 96.00 | 0.57 |
关键结论:DuplexSLA在工具调用平均延迟上比级联系统快约4倍(0.64s vs 2.77s),但在多动作场景下的准确率有明显下降(75% vs 89.33%)。在回声动作场景中,两者准确率相近,但延迟优势巨大。
2. 全双工轮次控制结果(上下文预填充设置,1200个案例)
| 模型 | 正常 | 暂停 | 打断 | 回声反馈 | ||||
|---|---|---|---|---|---|---|---|---|
| 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | |
| DuplexSLA | 96.00 | 0.27 | 93.33 | 0.27 | 99.33 | 0.40 | 98.33 | 0.32 |
| gemini-3.1-flash-live | 93.67 | 1.18 | 94.33 | 1.17 | 63.67 | 0.62 | 40.00 | N/A |
| gpt-realtime-1.5 (sem-vad) | 91.33 | 1.67 | 90.33 | 1.68 | 79.00 | 0.68 | 0.33 | N/A |
| gpt-realtime-1.5 (server-vad-40ms) | 82.33 | 0.95 | 71.00 | 1.02 | 77.00 | 0.72 | 13.00 | N/A |
关键结论:DuplexSLA在所有四个场景的响应延迟上均显著低于最强商用API(约快3-5倍)。特别是在回声反馈任务上,它是唯一准确率超过98%的系统,而其他基线由于没有内置回声标签,准确率极低。这验证了其动作通道设计的优越性。
3. 全双工轮次控制结果(无上下文预填充设置,600个案例)
| 模型 | 平均 (2场景) | 正常 | 暂停 | |||
|---|---|---|---|---|---|---|
| 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | 准确率(%) | 延迟(s) | |
| DuplexSLA | 94.34 | 0.30 | 95.67 | 0.29 | 93.00 | 0.31 |
| Freeze-Omni | 10.67 | 0.36 | 10.33 | 0.40 | 11.00 | 0.33 |
| PersonaPlex | 22.34 | 0.47 | 22.67 | 0.38 | 22.00 | 0.55 |
| MiniCPM-o | 82.00 | 0.61 | 83.33 | 0.62 | 80.67 | 0.59 |
| gemini-3.1-flash-live | 93.17 | 1.17 | 93.67 | 1.16 | 93.67 | 1.18 |
| gpt-realtime-1.5 (semantic-vad-high) | 96.50 | 1.57 | 96.70 | 1.57 | 96.30 | 1.57 |
| gpt-realtime-1.5 (server-vad-40ms) | 85.50 | 0.83 | 91.30 | 0.83 | 79.70 | 0.83 |
关键结论:在无法预填充历史的更苛刻设置下,DuplexSLA仍是唯一兼具高准确率(>94%)和亚秒级延迟(0.30s)的系统。商用API准确率更高但延迟超过1秒。开源模型MiniCPM-o表现尚可,但整体延迟仍高于DuplexSLA。Freeze-Omni和PersonaPlex准确率极低。
图表说明:
- 图4 展示了从原始对话数据到三通道格式训练样本的构建流水线,分为标注和合成对齐两个阶段。
- 图5 展示了持续预训练(CPT)和后训练阶段的音频数据分布,CPT以普通双工对话和ASR为主,后训练则集中于打断/回声/暂停和工具调用数据。
- 表格1总结了系统的关键设计元素。
🔬 细节详述
- 训练数据:数据是合成的,规模庞大。持续预训练(CPT)约500k小时音频+1.92M文本样本,包括双工对话(
320k h)、用户/助手声道ASR(各90k h)和通用文本(~1.92M samples)。后训练约50k小时,聚焦于打断/回声/暂停(~36k h)和工具调用(~14k h)数据。 - 损失函数:标准下一个令牌交叉熵损失,应用于助手TA4流和动作通道。额外应用了损失掩码和权重调整,以处理特殊状态令牌(如静音锚点、通道边界标记)和任务条件段落(§4.3)。
- 训练策略:两阶段训练。第一阶段CPT让骨干网络适应三通道格式并建立时间对齐先验。第二阶段后训练专注于注入目标交互能力(轮次控制、工具调用)。两阶段使用了不同的数据混合比例(§4.1, §4.2)。
- 关键超参数:骨干网络是77B参数的语音语言模型(基于Step-Audio 2 mini初始化)。时间块大小Δ=160ms。每块用户通道有2个特征(步长80ms),助手通道TA4包含1个文本锚点+4个音频令牌(步长40ms)。动作通道每块令牌预算≤10个。工具调用包含50个函数schema(Table 1, Appendix C)。
- 训练硬件:论文中未明确说明训练所用的GPU型号、数量和训练时长。
- 推理细节:模型以流式模式运行,每次处理一个160ms的用户音频块,输出对应的助手语音和动作文本。论文强调了解码需在160ms内完成以满足实时性要求(§2.3)。具体的解码策略(如温度、采样参数)未详细说明。
- 正则化/稳定技巧:论文未提及使用Dropout、权重衰减等常规正则化技巧。但提到了通过损失掩码和权重调整来稳定训练过程(§4.3)。
- 动作词汇与任务提示:附录B详细列出了动作通道使用的控制标签及其多种表述变体(表8),以及针对不同训练任务(对话、ASR、打断、回声等)的系统提示(表9)。
⚖️ 评分理由
- 创新性:2.3/3 论文提出了一个清晰且有洞察力的架构(双流三通道),将规划与控制提升为一等公民,并通过动作通道原生集成,解决了全双工对话中“边说边做”的核心挑战。这超越了简单的技术组合,为系统级设计提供了新范式。构建专用基准也体现了方法论上的贡献。扣分点在于,“动作通道”本身并非全新概念,其创新更多体现在将其与全双工语音生成模型的紧密集成与系统化实现上。
- 技术严谨性:1.1/1.5 架构设计合理,数据构建和训练阶段的划分有清晰的技术动机(如双路ASR用于时间对齐)。动作通道的溢出处理规则设计严谨(FIFO队列)。然而,一些关键实现细节缺失(如损失函数具体权重、优化器、学习率、硬件、推理解码参数),降低了技术可审计性。动作通道的“速率受限”本质是一个工程预算,其设计原理(为何是10个令牌)可以阐述得更定量。
- 实验充分性:1.0/1.5 实验设计良好,评估了核心的轮次控制和工具调用能力,并设置了有无上下文预填充两种设置。基准包含足够案例数。对比基线涵盖商用API和代表性开源模型。主要不足是消融实验缺失:这是最大的方法论缺陷。论文未提供任何消融来验证动作通道本身的有效性(例如,与将工具调用放在助手文本通道的变体对比),也未验证双路ASR监督的必要性。这使得性能提升的归因不明确。此外,工具调用部分的准确率下降(尤其是多动作场景)原因分析不足。
- 清晰度:0.8/1 论文写作清晰,结构完整,图表(尤其是图1、图2、图3)有效地阐释了核心概念。术语定义明确。但部分技术细节(如模型具体如何解码动作令牌、训练损失函数的具体形式、解码策略)隐藏在“未说明”或简略描述中,若无补充材料,复现存在挑战。
- 影响力:1.6/2 对语音对话系统领域有明确的推动价值。提出的架构为解决全双工交互中的关键问题提供了有前景的方案。发布的DuplexSLA-Bench填补了评估空白,可能成为该领域的重要基准。动作通道的设计思想可能启发后续工作。主要限制在于,该系统在特定任务(如多动作工具调用)的准确率上仍有提升空间,且77B的模型规模可能限制其广泛应用。评估局限于合成数据集也限制了其即时影响力。
- 开源:0.8/1.5 论文声称提供了项目页面、交互演示和评估套件(链接:https://github.com/hyzhang24/DuplexSLA),表明代码和评估数据集可能开源。但未明确提及模型权重是否公开,也未详述训练脚本、完整数据集是否开源。因此,给予0.8分,表示有开源承诺但完整度和细节待验证。
- 可复现性:0.2/0.5 论文描述了宏观的训练策略和数据构成,但缺少复现所需的微观细节:如学习率、优化器、batch size、具体的训练步数、硬件环境、推理温度/采样参数等。尽管提供了数据构建流水线的概述和附录中的序列化示例,但具体的标注指南、完整的工具调用Schema列表(仅描述)等也未完全展开。依赖开源仓库可能能弥补部分不足,但当前信息不足以实现完整复现。
总分:7.8/10 (注:各维度分数总和为7.8,四舍五入至7.5以反映整体评价。原分析8.5分可能偏高,主要因忽略了消融实验缺失这一重大缺陷及部分细节的不足。)
🚨 局限与问题
- 论文明确承认的局限:
- 依赖大规模合成数据进行训练,可能限制了模型在真实世界复杂声学和对话场景中的泛化能力。
- 动作通道的工具调用局限于预定义的50个座舱/智能家居函数Schema,在开放域工具使用场景下的能力未知。
- 模型规模庞大(77B),部署成本高,对实时推理的硬件要求严格。
- 审稿人发现的潜在问题:
- 消融实验缺失是最大的方法论缺陷。无法确定性能提升多少归功于三通道架构本身、动作通道设计、双路ASR监督,还是巨大的数据规模与模型参数。例如,一个关键的消融是:禁止动作通道输出工具调用,而将其嵌入助手文本通道,观察延迟和准确率的变化。
- 工具调用准确率下降,尤其是在多动作场景(75% vs 级联的89.33%),论文未深入分析原因。可能是动作通道的10令牌预算限制了复杂工具调用的完整表达,或是自回归解码中的错误传播问题,或是合成数据中多动作场景的复杂性不足。
- 评测局限性:评估完全在自建的合成基准(DuplexSLA-Bench)上进行,缺乏在真实交互数据或现有通用对话基准(如LibriSpeech, MultiWOZ等)上的结果,说服力有限。合成数据可能无法完全反映真实交互中的噪声、重叠语音和复杂语义。
- 部署复杂度:模型需要在严格的实时约束(160ms)下,同时解码语音和文本动作,这对服务架构提出了高要求。论文未讨论实际部署中的延迟优化、错误恢复、多用户并发等工程挑战。
- 回声反馈评估的合理性:对于非DuplexSLA的基线,由于没有输出回声标签,其“准确率”是基于音频事件(停止或重启)来评判的,这与对DuplexSLA基于标签的评判标准不完全一致,可能影响对比的公平性。论文在表6注释中说明了这一点,但值得进一步讨论。
📷 论文图片




