📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

#语音对话系统 #基准测试 #实时处理 #大语言模型

🔥 评分：8.0/10 | arxiv

👥 作者与机构

第一作者：Guan-Ting Lin (台湾大学)
通讯作者：Hung-yi Lee (台湾大学)
其他作者：Chen Chen (英伟达), Zhehuai Chen (英伟达)

💡 毒舌点评

亮点：终于有人用真实的、结结巴巴的人话来拷问那些号称“实时对话”的语音AI了，而不是用完美的TTS自欺欺人。特别是对“自我纠正”（“去纽约…啊不，波士顿”）这种致命场景的测试，直击当前系统的软肋。槽点：论文本身是个“裁判”而非“运动员”，它很尽责地指出了选手们（GPT-Realtime, Gemini等）的弱点，但并没有给出如何训练出更好选手的秘方。此外，100条语音的测试集对于覆盖复杂现实场景可能还是略显单薄。

🔗 开源详情

代码与数据集：论文提供了 GitHub 仓库链接（https://daniellin94144.github.io/FDB-v3-demo/）和 CC BY-SA 4.0 许可证，强烈暗示基准的数据集、评估脚本和可能的Demo代码已开源。
在线Demo：提供了在线演示链接（https://daniellin94144.github.io/FDB-v3-demo/）。
模型：评估的模型（GPT-Realtime, Gemini Live等）均为第三方API或开源模型（如Ultravox），论文未发布新模型权重。
引用开源项目：论文依赖 LiveKit 实时语音代理框架进行系统部署和评估。

📌 核心摘要

这篇论文针对当前全双工语音代理评估缺乏真实性（依赖合成语音）和任务简单性（单步调用）的问题，提出了Full-Duplex-Bench-v3 (FDB-v3) 基准。该基准的核心创新在于使用100条真实人类录音（含五种不流畅性注释），在四个任务域中设计了需要多步API链式调用的场景，并特别包含了21个测试意图中途自我纠正的案例。通过对GPT-Realtime、Gemini Live等六个主流系统（包括一个级联基线）的评估，论文发现：1）在任务完成率上，GPT-Realtime领先；2）Gemini Live 3.1延迟最低但“静默工作”（只调用工具不说话）比例高；3）自我纠正和多步推理在复杂场景下仍是所有系统的最普遍失败模式。该工作为语音代理的研发提供了贴近现实的评估标尺，并指明了平衡响应速度与对话灵活性的未来方向。

🏗️ 模型架构

本文不提出新模型，而是评估现有模型。 其评估框架的整体流程如下：

输入：来自真实人类录音的音频流，其中包含自然产生的不流畅现象（填充词、停顿、错误开头、自我纠正等）。
系统处理：音频流被送入待评估的语音代理系统。论文评估了六种配置：
- 端到端语音到语音模型：GPT-Realtime, Gemini Live 2.5/3.1, Grok, Ultravox v0.7。这些模型内部集成语音识别、语言理解和语音生成。
- 级联流水线基线：Whisper (ASR) -> GPT-4o (LLM，负责推理和工具调用) -> OpenAI TTS (语音合成)。
工具执行：所有系统均通过 LiveKit 实时语音代理框架 连接到本地模拟的API。这些Mock API（如search_flights, book_ticket）具有确定性、零延迟的响应，以隔离模型本身的推理和参数传递性能。
输出与评估：系统输出包括生成的语音和工具调用日志。评估从四个维度进行：
- 工具使用准确性：工具选择F1值、参数语义准确性、任务完成率（Pass@1）。
- 对话质量：由GPT-4o评判的响应质量。
- 轮流发言动态：轮流发言率、基础延迟（用户说完到系统开始响应）、打断率、填充句率。
- 延迟分解：首词延迟、首次工具调用延迟、任务完成延迟（通过GPT-4o分析ASR片段，分离填充语句和关键信息句）。

💡 核心创新点

真实不流畅语音基准：构建了首个完全由真实人类语音组成、并系统性标注了五种不流畅类别（填充词、停顿、犹豫、错误开头、自我纠正）的工具使用评估集，极大提升了评估的生态效度。
自我纠正与状态回滚测试：专门设计了21个场景，测试语音代理能否识别用户在单次发言中改变意图（如更改目的地、日期），并正确更新下游API参数，这是对动态状态管理的直接考验。
多步函数链式调用：每个场景都需要跨四个任务域（旅行身份、金融账单、住房位置、电商支持）进行多步API调用，评估了模型在真实语音条件下进行复杂推理和规划的能力。
全面的多维度评估体系：不仅评估工具调用准确性，还深入分析了延迟构成、轮流发言行为（如“静默工作者”现象）、以及不同不流畅类型对性能的影响，揭示了速度、准确性与对话流畅性之间的核心权衡。

🔬 细节详述

训练数据：不涉及模型训练。基准数据集包含100条录音，来自12位说话者（含母语及非母语者），在非受控环境下使用日常麦克风录制。每个说话者被分配10个跨域场景，其中21个包含自我纠正事件。
评估指标：
- 工具选择F1：精确率与召回率的调和平均。
- 参数准确性：由GPT-4o评判语义正确性，允许日期格式、缩写等合理变体。
- 任务完成率 (Pass@1)：二元指标，要求工具选择、参数准确性、响应质量全部完美。
- 响应质量：由GPT-4o评判是否自然且完整地满足了用户意图。
- 轮流发言指标：包括轮流发言率、基础延迟（Δt）、打断率（Δt < 0）、填充句率。
- 延迟分解：首词延迟、工具调用延迟、任务完成延迟（通过GPT-4o识别关键信息句起始时间）。
关键超参数/设置：
- Mock API：本地执行，确定性输出，零延迟。
- 评估模型：使用GPT-4o作为评判器（用于参数准确性、响应质量、关键信息识别）。
- 难度分级：Easy（单步）、Medium（两步，中等歧义）、Hard（多步，约束冲突）。
实验硬件/推理：所有云端模型评估在单一固定服务器区域执行，以确保延迟比较公平。未提及具体GPU型号和训练细节，因为本文是评估工作。

📊 实验结果

主要指标对比（表2）：

模型	工具选择F1	参数准确率	响应质量	Pass@1	轮流发言率	任务完成延迟	打断率	填充句率
GPT-Realtime	0.876	0.680	0.792	0.600	96.0%	6.89s	13.5%	16.9%
Gemini Live 2.5	0.786	0.593	0.554	0.490	92.0%	7.26s	14.1%	8.9%
Gemini Live 3.1	0.817	0.588	0.718	0.540	78.0%	4.25s	19.2%	31.7%
Grok	0.797	0.542	0.617	0.430	94.0%	6.65s	25.5%	44.3%
Ultravox	0.794	0.513	0.510	0.410	96.0%	8.40s	47.9%	88.0%
Cascaded	0.803	0.562	0.600	0.450	100.0%	10.12s	33.0%	26.9%

按不流畅类型分解的Pass@1（表3）：

模型	填充词	停顿	犹豫	错误开头	自我纠正
GPT-Realtime	0.621	0.556	0.700	0.667	0.588
Gemini Live 2.5	0.621	0.444	0.600	0.417	0.471
Gemini Live 3.1	0.586	0.500	0.600	0.583	0.353
Grok	0.483	0.333	0.500	0.583	0.294
Ultravox	0.414	0.333	0.500	0.250	0.353
Cascaded	0.448	0.444	0.600	0.500	0.176

按难度分解的Pass@1（表4）：

模型	Easy	Medium	Hard
GPT-Realtime	0.750	0.588	0.433
Gemini Live 2.5	0.667	0.500	0.267
Gemini Live 3.1	0.694	0.588	0.300
Grok	0.583	0.471	0.200
Ultravox	0.556	0.382	0.267
Cascaded	0.639	0.441	0.233

延迟分解（表6）：

模型	首词延迟	工具调用延迟	任务完成延迟
GPT-Realtime	6.36s	3.89s	6.89s
Gemini Live 2.5	7.03s	4.61s	7.26s
Gemini Live 3.1	3.95s	2.21s	4.25s
Grok	5.97s	0.63s	6.65s
Ultravox	3.88s	6.01s	8.40s
Cascaded	8.78s	3.15s	10.12s

关键发现：

GPT-Realtime 综合表现最佳，尤其在自我纠正（0.588）和打断率（13.5%）上优势明显。
Gemini Live 3.1 延迟最低，但“轮流发言率”仅78.0%，存在严重的“静默工作者”问题（22%场景无语音响应，但其中86%执行了工具调用）。
Cascaded基线 保证了响应（100%轮流发言率），但延迟最高（10.12s），且在自我纠正上表现最差（0.176）。
自我纠正 是所有系统最困难的场景，即使最强的GPT-Realtime也有超过40%的失败率。
Ultravox 有极高的填充句率（88.0%）和打断率（47.9%），倾向于在用户未说完时就用“让我查一下”这类句子打断。

⚖️ 评分理由

创新性：7/10。主要创新在于基准构建的创新——首次系统性地将真实不流畅语音、多步工具调用和意图修正评估结合起来，为领域提供了新的、更贴近现实的测试标准。并非模型或算法上的理论创新。
实验充分性：9/10。实验设计非常全面和严谨。评估了6个具有代表性的系统（涵盖端到端和级联），使用了4个任务域、3个难度级别、5类不流畅性注释，并从准确性、延迟、对话动态等多个维度进行了深入分析。分析中揭示的“静默工作者”、“预执行 vs 打断”等现象极具洞察力。
实用价值：9/10。对语音AI研发具有极高的实用指导价值。它明确指出了当前系统在真实交互中的核心短板（自我纠正、速度-可靠性权衡），其评估框架和发现可以直接指导模型优化和产品设计。
灌水程度：2/10（分数越高越水）。论文内容紧凑，聚焦于基准介绍、评估和分析，没有明显的冗余内容。所有章节都与核心目标紧密相关。

🖼️ 图片与表格

表格分析（论文中未提供图片，主要为表格）：

表1：任务域与Mock API函数 | 保留：是 - 定义了基准的核心任务和工具，是理解实验设计的基础。
表2：总体性能对比 | 保留：是 - 核心结果表，汇总了所有模型在所有主要指标上的表现，至关重要。
表3：按不流畅类型分解的Pass@1 | 保留：是 - 关键分析表，揭示了不同模型对各类语音不流畅的鲁棒性差异。
表4：按难度分解的Pass@1 | 保留：是 - 重要结果，展示了任务复杂度对性能的影响。
表5：按领域分解的Pass@1 | 保留：是 - 补充结果，显示了模型在不同领域的性能差异。
表6：延迟分解 | 保留：是 - 核心分析表，详细拆解了延迟构成，揭示了不同系统的响应模式。
表7 & 表8：定性案例研究 | 保留：是 - 通过具体案例生动展示了模型在不同场景下的行为差异，增强了论文的说服力和可读性。

📸 论文图片

← 返回 2026-04-20 论文速递

📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文