📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

#语音对话系统 #基准测试 #实时处理 #大语言模型

🔥 评分:8.0/10 | arxiv

👥 作者与机构

  • 第一作者:Guan-Ting Lin (台湾大学)
  • 通讯作者:Hung-yi Lee (台湾大学)
  • 其他作者:Chen Chen (英伟达), Zhehuai Chen (英伟达)

💡 毒舌点评

亮点:终于有人用真实的、结结巴巴的人话来拷问那些号称“实时对话”的语音AI了,而不是用完美的TTS自欺欺人。特别是对“自我纠正”(“去纽约…啊不,波士顿”)这种致命场景的测试,直击当前系统的软肋。 槽点:论文本身是个“裁判”而非“运动员”,它很尽责地指出了选手们(GPT-Realtime, Gemini等)的弱点,但并没有给出如何训练出更好选手的秘方。此外,100条语音的测试集对于覆盖复杂现实场景可能还是略显单薄。

📌 核心摘要

这篇论文针对当前全双工语音代理评估缺乏真实性(依赖合成语音)和任务简单性(单步调用)的问题,提出了Full-Duplex-Bench-v3 (FDB-v3) 基准。该基准的核心创新在于使用100条真实人类录音(含五种不流畅性注释),在四个任务域中设计了需要多步API链式调用的场景,并特别包含了21个测试意图中途自我纠正的案例。通过对GPT-Realtime、Gemini Live等六个主流系统(包括一个级联基线)的评估,论文发现:1)在任务完成率上,GPT-Realtime领先;2)Gemini Live 3.1延迟最低但“静默工作”(只调用工具不说话)比例高;3)自我纠正和多步推理在复杂场景下仍是所有系统的最普遍失败模式。该工作为语音代理的研发提供了贴近现实的评估标尺,并指明了平衡响应速度与对话灵活性的未来方向。

🏗️ 模型架构

本文不提出新模型,而是评估现有模型。 其评估框架的整体流程如下:

  1. 输入:来自真实人类录音的音频流,其中包含自然产生的不流畅现象(填充词、停顿、错误开头、自我纠正等)。
  2. 系统处理:音频流被送入待评估的语音代理系统。论文评估了六种配置:
    • 端到端语音到语音模型:GPT-Realtime, Gemini Live 2.5/3.1, Grok, Ultravox v0.7。这些模型内部集成语音识别、语言理解和语音生成。
    • 级联流水线基线:Whisper (ASR) -> GPT-4o (LLM,负责推理和工具调用) -> OpenAI TTS (语音合成)。
  3. 工具执行:所有系统均通过 LiveKit 实时语音代理框架 连接到本地模拟的API。这些Mock API(如search_flights, book_ticket)具有确定性、零延迟的响应,以隔离模型本身的推理和参数传递性能。
  4. 输出与评估:系统输出包括生成的语音和工具调用日志。评估从四个维度进行:
    • 工具使用准确性:工具选择F1值、参数语义准确性、任务完成率(Pass@1)。
    • 对话质量:由GPT-4o评判的响应质量。
    • 轮流发言动态:轮流发言率、基础延迟(用户说完到系统开始响应)、打断率、填充句率。
    • 延迟分解:首词延迟、首次工具调用延迟、任务完成延迟(通过GPT-4o分析ASR片段,分离填充语句和关键信息句)。

💡 核心创新点

  1. 真实不流畅语音基准:构建了首个完全由真实人类语音组成、并系统性标注了五种不流畅类别(填充词、停顿、犹豫、错误开头、自我纠正)的工具使用评估集,极大提升了评估的生态效度。
  2. 自我纠正与状态回滚测试:专门设计了21个场景,测试语音代理能否识别用户在单次发言中改变意图(如更改目的地、日期),并正确更新下游API参数,这是对动态状态管理的直接考验。
  3. 多步函数链式调用:每个场景都需要跨四个任务域(旅行身份、金融账单、住房位置、电商支持)进行多步API调用,评估了模型在真实语音条件下进行复杂推理和规划的能力。
  4. 全面的多维度评估体系:不仅评估工具调用准确性,还深入分析了延迟构成、轮流发言行为(如“静默工作者”现象)、以及不同不流畅类型对性能的影响,揭示了速度、准确性与对话流畅性之间的核心权衡。

🔬 细节详述

  • 训练数据:不涉及模型训练。基准数据集包含100条录音,来自12位说话者(含母语及非母语者),在非受控环境下使用日常麦克风录制。每个说话者被分配10个跨域场景,其中21个包含自我纠正事件。
  • 评估指标
    • 工具选择F1:精确率与召回率的调和平均。
    • 参数准确性:由GPT-4o评判语义正确性,允许日期格式、缩写等合理变体。
    • 任务完成率 (Pass@1):二元指标,要求工具选择、参数准确性、响应质量全部完美。
    • 响应质量:由GPT-4o评判是否自然且完整地满足了用户意图。
    • 轮流发言指标:包括轮流发言率、基础延迟(Δt)、打断率(Δt < 0)、填充句率。
    • 延迟分解:首词延迟、工具调用延迟、任务完成延迟(通过GPT-4o识别关键信息句起始时间)。
  • 关键超参数/设置
    • Mock API:本地执行,确定性输出,零延迟。
    • 评估模型:使用GPT-4o作为评判器(用于参数准确性、响应质量、关键信息识别)。
    • 难度分级:Easy(单步)、Medium(两步,中等歧义)、Hard(多步,约束冲突)。
  • 实验硬件/推理:所有云端模型评估在单一固定服务器区域执行,以确保延迟比较公平。未提及具体GPU型号和训练细节,因为本文是评估工作。

📊 实验结果

主要指标对比(表2):

模型工具选择F1参数准确率响应质量Pass@1轮流发言率任务完成延迟打断率填充句率
GPT-Realtime0.8760.6800.7920.60096.0%6.89s13.5%16.9%
Gemini Live 2.50.7860.5930.5540.49092.0%7.26s14.1%8.9%
Gemini Live 3.10.8170.5880.7180.54078.0%4.25s19.2%31.7%
Grok0.7970.5420.6170.43094.0%6.65s25.5%44.3%
Ultravox0.7940.5130.5100.41096.0%8.40s47.9%88.0%
Cascaded0.8030.5620.6000.450100.0%10.12s33.0%26.9%

按不流畅类型分解的Pass@1(表3):

模型填充词停顿犹豫错误开头自我纠正
GPT-Realtime0.6210.5560.7000.6670.588
Gemini Live 2.50.6210.4440.6000.4170.471
Gemini Live 3.10.5860.5000.6000.5830.353
Grok0.4830.3330.5000.5830.294
Ultravox0.4140.3330.5000.2500.353
Cascaded0.4480.4440.6000.5000.176

按难度分解的Pass@1(表4):

模型EasyMediumHard
GPT-Realtime0.7500.5880.433
Gemini Live 2.50.6670.5000.267
Gemini Live 3.10.6940.5880.300
Grok0.5830.4710.200
Ultravox0.5560.3820.267
Cascaded0.6390.4410.233

延迟分解(表6):

模型首词延迟工具调用延迟任务完成延迟
GPT-Realtime6.36s3.89s6.89s
Gemini Live 2.57.03s4.61s7.26s
Gemini Live 3.13.95s2.21s4.25s
Grok5.97s0.63s6.65s
Ultravox3.88s6.01s8.40s
Cascaded8.78s3.15s10.12s

关键发现

  • GPT-Realtime 综合表现最佳,尤其在自我纠正(0.588)和打断率(13.5%)上优势明显。
  • Gemini Live 3.1 延迟最低,但“轮流发言率”仅78.0%,存在严重的“静默工作者”问题(22%场景无语音响应,但其中86%执行了工具调用)。
  • Cascaded基线 保证了响应(100%轮流发言率),但延迟最高(10.12s),且在自我纠正上表现最差(0.176)。
  • 自我纠正 是所有系统最困难的场景,即使最强的GPT-Realtime也有超过40%的失败率。
  • Ultravox 有极高的填充句率(88.0%)和打断率(47.9%),倾向于在用户未说完时就用“让我查一下”这类句子打断。

⚖️ 评分理由

  • 创新性:7/10。主要创新在于基准构建的创新——首次系统性地将真实不流畅语音、多步工具调用和意图修正评估结合起来,为领域提供了新的、更贴近现实的测试标准。并非模型或算法上的理论创新。
  • 实验充分性:9/10。实验设计非常全面和严谨。评估了6个具有代表性的系统(涵盖端到端和级联),使用了4个任务域、3个难度级别、5类不流畅性注释,并从准确性、延迟、对话动态等多个维度进行了深入分析。分析中揭示的“静默工作者”、“预执行 vs 打断”等现象极具洞察力。
  • 实用价值:9/10。对语音AI研发具有极高的实用指导价值。它明确指出了当前系统在真实交互中的核心短板(自我纠正、速度-可靠性权衡),其评估框架和发现可以直接指导模型优化和产品设计。
  • 灌水程度:2/10(分数越高越水)。论文内容紧凑,聚焦于基准介绍、评估和分析,没有明显的冗余内容。所有章节都与核心目标紧密相关。

🔗 开源详情

  • 代码与数据集:论文提供了 GitHub 仓库链接(https://daniellin94144.github.io/FDB-v3-demo/)和 CC BY-SA 4.0 许可证,强烈暗示基准的数据集、评估脚本和可能的Demo代码已开源。
  • 在线Demo:提供了在线演示链接(https://daniellin94144.github.io/FDB-v3-demo/)。
  • 模型:评估的模型(GPT-Realtime, Gemini Live等)均为第三方API或开源模型(如Ultravox),论文未发布新模型权重。
  • 引用开源项目:论文依赖 LiveKit 实时语音代理框架进行系统部署和评估。

🖼️ 图片与表格

表格分析(论文中未提供图片,主要为表格):

  • 表1:任务域与Mock API函数 | 保留:是 - 定义了基准的核心任务和工具,是理解实验设计的基础。
  • 表2:总体性能对比 | 保留:是 - 核心结果表,汇总了所有模型在所有主要指标上的表现,至关重要。
  • 表3:按不流畅类型分解的Pass@1 | 保留:是 - 关键分析表,揭示了不同模型对各类语音不流畅的鲁棒性差异。
  • 表4:按难度分解的Pass@1 | 保留:是 - 重要结果,展示了任务复杂度对性能的影响。
  • 表5:按领域分解的Pass@1 | 保留:是 - 补充结果,显示了模型在不同领域的性能差异。
  • 表6:延迟分解 | 保留:是 - 核心分析表,详细拆解了延迟构成,揭示了不同系统的响应模式。
  • 表7 & 表8:定性案例研究 | 保留:是 - 通过具体案例生动展示了模型在不同场景下的行为差异,增强了论文的说服力和可读性。

📸 论文图片

figure


← 返回 2026-04-20 论文速递