📄 STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity
#语音翻译 #语音合成 #语音识别 #多模态模型 #大语言模型
7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5
✅ 7.8/10 | 前50% | #语音翻译 | #语音合成 | #语音识别 #多模态模型 | arxiv
👥 作者与机构
作者:Sitong Cheng, Weizhen Bian, Songjun Cao, Jin Li, Bei Liu, Chunyang Jiang, Yike Zhang, Weihao Wu, Yiming Li, Chi-Min Chan, Long Ma, Wei Xue 单位:香港科技大学,腾讯优图实验室,清华大学深圳国际研究生院
💡 毒舌点评
这篇论文瞄准了一个重要但被忽视的痛点:语音翻译不能只传意思,还得传“感觉”。STEB基准的构建工作扎实,32.6小时数据、六种场景、自动化流水线,体现了工程实力。提出的LLM评估框架(描述-总结-打分)巧妙地绕开了获取“理想参考语音”的难题,思路值得肯定。然而,作为一篇以“基准”和“评估”为核心的论文,实验部分显得有些“王婆卖瓜”——自家的评估框架在自家数据集上验证自家评估方法的相关性,说服力打了折扣。对六个基线系统的分析有洞察(如级联系统情感分低但NV分高),但结论“语义传递与表现力传递存在差距”略显平淡,对“为什么差距这么大”以及“如何弥补”的深层探讨不足。此外,所有代码、数据、评估脚本均未开源,极大削弱了其作为“基准”的可复现性和社区推动力。总体而言,这是一个有用的数据集和评估工具的开端,但距离一个能引领领域的“标准”还有距离。
📌 核心摘要
本文针对当前语音到语音翻译(S2ST)系统评估主要集中于翻译保真度,而忽视情感、场景风格、非语言发声(NV)等表现力维度的不足,提出了STEB基准。STEB包含32.6小时中英双语评估数据,涵盖戏剧、有声书等六种真实场景。为解决跨语言表现力对齐语音参考难以大规模获取的难题,本文设计了一种无需参考语音的“描述-总结”评估框架:首先使用音频描述模型为源语音和假设语音生成详细描述,然后通过大语言模型(LLM)将描述总结为结构化属性(情感、场景风格、NV),最后由LLM裁判根据标准化规则比较源与假设的属性一致性进行打分(1-5分)。人工验证表明自动评分与人类判断在所有表现力维度上具有统计显著相关性。对六种S2ST系统(涵盖级联、端到端、语音LLM)的评估显示,多数系统在翻译保真度上表现尚可,但在表现力保留上明显滞后:情感保留最佳得分仅3.82/5,NV保留最佳仅2.31/5。结果揭示了当前S2ST系统在语义传递与表现力传递间的显著差距。
🔗 开源详情
- 代码:论文中未提供具体的代码仓库链接。论文在作者信息部分标注了“Code”,但正文中无具体URL。
- 模型权重:论文中未提及模型权重的具体获取链接。文中使用的Qwen3系列模型、VoxCPM2等均未提供链接。
- 数据集:论文介绍了STEB数据集(32.6小时中英评估数据)。论文声称将发布数据集、评估提示和评分脚本,但未提供具体的下载链接或托管平台。
- Demo:在线音频示例可在以下链接访问:https://cmots.github.io/steb.github.io/
- 复现材料:论文中未提及训练配置、检查点或可直接运行的脚本。
- 论文中引用的开源项目:
- BS-Roformer:用于音源分离的模型。链接:https://github.com/jianfch/stable-ts
- pyannote:用于说话人分割的工具。链接:https://github.com/pyannote/pyannote-audio
- CAM++:用于说话人嵌入提取的模型。论文引用(Wang et al., 2023),未提供代码链接。
- Silero VAD:用于语音活动检测的模型。链接:https://github.com/snakers4/silero-vad
- Whisper:用于语言识别。论文具体使用了
whisper-large-v3-turbo。链接:https://github.com/openai/whisper - DNSMOS:用于语音质量评分。论文引用(Reddy et al., 2021),链接:https://github.com/microsoft/DNS-Challenge
- BEATs:用于非语言声音(NV)检测。论文使用其在PretrainedSED框架中。链接:https://github.com/microsoft/unilm/tree/master/beats
- Qwen3系列模型:论文中提到了多个Qwen3模型(ASR, ForceAlign, 30B-A3B翻译, Omni-Captioner),但未提供这些模型权重的具体发布链接。
- UniSS:被评估的基线系统之一。论文引用(Cheng et al., 2025b),未提供代码或模型链接。
- SeamlessExpressive:被评估的基线系统之一。论文引用(Communication et al., 2023),链接:https://github.com/facebookresearch/seamless_communication
- Seed LiveInterpret 2.0:被评估的基线系统之一,为商业系统。
- Step-Audio 2:被评估的基线系统之一。论文引用(Wu et al., 2025),未提供代码链接。
- VoxCPM2:在“三阶段”和“两阶段”流水线中用作TTS模块。论文引用(Team, 2026),未提供链接。
- WavLM:用于说话人相似度计算。论文使用了
WavLM-Large + ECAPA-TDNN说话人验证模型。链接:https://github.com/microsoft/unispeech - Seed-TTS-eval:用于说话人相似度评估的协议参考。链接:https://github.com/BytedanceSpeech/seed-tts-eval
🏗️ 方法概述和架构
本文提出的方法主要包含两个核心部分:STEB基准数据集的构建流程,以及基于LLM的无参考表现力评估框架。
- STEB数据构建流程 (如图2所示) 该流程旨在从公开网络音频中自动构建大规模、高质量、具有丰富表现力标注的评估数据集,共分为六个阶段:
- 阶段A:数据收集。从公开网络源收集涵盖戏剧、有声书、广告、访谈、新闻、评论六种场景的原始音频。
- 阶段B:预处理。目标是从混合音乐和多人的原始音频中提取干净的单说话人话语。具体步骤包括:
- 音源分离:使用BS-Roformer模型分离背景音乐与前景语音,减少干扰。
- 说话人分割:使用Silero VAD检测语音活动,使用pyannote进行说话人二分以确定话轮边界,然后使用CAM++的说话人嵌入(余弦相似度阈值≥0.75)合并同一说话人的片段,最终得到单说话人话语。
- 质量过滤:丢弃时长不在3-30秒之间的话语,并进行窄带过滤、信噪比检查以及使用DNSMOS模型(阈值3.0)进行感知质量评分。
- 语言识别:使用Whisper-large-v3-turbo仅保留中文和英文话语。
- 阶段C:表达性注释。为每个保留的话语自动生成结构化标注:
- ASR、力对齐与翻译:使用Qwen3-ASR转录源语音,使用Qwen3-ForceAlign获取词级时间戳,使用Qwen3-30B-A3B进行中英文翻译。
- 非语言发声(NV)检测:使用BEATs模型(在PretrainedSED框架中)检测喘息、笑声等NV,并将其作为标记插入转录文本的对应位置。
- 音频描述与总结:采用“描述-总结”两阶段设计。第一阶段,多模态LLM Qwen3-Omni-Captioner 直接分析音频,生成涵盖情感、场景/体裁、语速、能量、正式度、音色等细节的冗长音频描述。第二阶段,文本LLM Qwen3-30B-A3B 将冗长描述总结为简洁的“情感”和“场景风格”两方面结构化描述。
- 阶段D:质量保证。
- 基于规则的过滤:优先选择包含NV的话语,平衡场景、语言和性别覆盖,并使用文本LLM进行二次语言检查,过滤严重中英文混合的话语。
- 自动质量评分:使用一个强大的多模态LLM作为自动质量法官,为每个样本的转录、翻译、情感、场景风格等维度打分(1-5分)。为保证质量,设定严格保留阈值(如普通子集中所有维度需得5分,最多一个得4分)。
- 人工验证:对自动过滤后的样本进行人工验证,检查语音质量和注释准确性。
最终数据集包含一个普通子集(20,370话语,32.27小时)和一个NV子集(901话语,1.26小时),总唯一时长为32.6小时。
- 无参考表现力评估框架 由于无法大规模获取完美保留源表现力的目标语音参考,STEB采用无参考的LLM-as-a-judge框架。
- 法官流水线:给定源语音\(X\)及其注释(情感\(E_x\)、场景风格\(ST_x\)、带NV标记的转录\(N_x\))和系统输出语音\(Y\):
- 提取假设注释:将\(Y\)通过与源注释相同的“描述-总结”流水线(Qwen3-Omni-Captioner + Qwen3-30B-A3B)处理,生成假设情感\(E_y\)和场景风格\(ST_y\);同时使用BEATs检测\(Y\)中的NV并生成\(N_y\)。
- LLM裁判打分:一个LLM裁判(使用Qwen3-30B-A3B)根据维度特定的评分规则(Rubric),比较源注释(\(E_x, ST_x, N_x\))与假设注释(\(E_y, ST_y, N_y\)),对每个表现力维度(情感、场景风格、NV)给出1-5分的一致性评分。
- 评分规则:每个维度有明确的1-5分标准。例如,NV保留的5分要求类型、数量、顺序和近似位置完全匹配且无明显新增;1分表示源NV明显未被保留。
- 聚合:为减少方差,每个样本独立打分三次,并通过一种感知异常值的聚合规则(如中位数、去极值平均)得到最终分数。


💡 核心创新点
- 首个联合表现力评估基准:STEB是首个同时覆盖情感、场景风格和非语言发声(NV)三个表现力维度进行S2ST评估的基准数据集,填补了现有基准(如CVSS, mExpresso)在此方面的空白。
- 可扩展的自动化数据构建流水线:提出了一套从原始网络音频到结构化表现力注释的端到端自动化流水线,包含音源分离、说话人分割、多维度自动标注(ASR、翻译、NV检测、音频描述总结)和严格的质量控制(自动+人工验证),为构建类似基准提供了可复用的方法。
- 无参考的表现力评估框架:设计并验证了一个基于“描述-总结”和LLM裁判的无参考评估框架,成功绕过了获取跨语言表现力对齐参考语音的难题。通过与人工评分的相关性研究,验证了该框架在情感、场景风格和NV三个维度上的有效性。
📊 实验结果
论文对六种S2ST系统(涵盖级联、端到端、语音LLM)进行了评估,结果如表2、表3、表4所示。
表2:STEB主要对比结果(中译英)
| 系统 | BLEU ↑ | COMET ↑ | XCOMET/QE ↑ | Emo. ↑ | Sty. ↑ | NV. ↑ | SLC0.2 ↑ | SLC0.4 ↑ | SIM ↑ |
|---|---|---|---|---|---|---|---|---|---|
| Three-Stage | 38.20 | 0.812 | 0.804/0.840 | 1.73 | 3.92 | 2.25 | 0.614 | 0.887 | 0.497 |
| w/o Instruct | 38.21 | 0.812 | 0.804/0.840 | 1.73 | 3.93 | 2.22 | 0.610 | 0.889 | 0.498 |
| Two-Stage | 41.59 | 0.814 | 0.800/0.833 | 1.68 | 3.93 | 2.31 | 0.439 | 0.699 | 0.498 |
| w/o Instruct | 41.41 | 0.815 | 0.800/0.834 | 1.67 | 3.92 | 2.28 | 0.438 | 0.696 | 0.497 |
| UniSS | 28.55 | 0.768 | 0.772/0.793 | 3.61 | 4.36 | 1.31 | 0.915 | 0.959 | 0.411 |
| Seamless | 17.83 | 0.685 | 0.711/0.693 | 3.10 | 4.27 | 1.29 | 0.598 | 0.934 | 0.302 |
| Seed Live 2.0 | 26.02 | 0.763 | 0.773/0.798 | 3.34 | 4.41 | 1.25 | 0.590 | 0.912 | 0.416 |
| Step-Audio 2 | 30.82 | 0.784 | 0.790/0.814 | 3.57 | 4.39 | 1.58 | 0.542 | 0.836 | 0.475 |
表3:STEB主要对比结果(英译中)
| 系统 | BLEU ↑ | COMET ↑ | XCOMET/QE ↑ | Emo. ↑ | Sty. ↑ | NV. ↑ | SLC0.2 ↑ | SLC0.4 ↑ | SIM ↑ |
|---|---|---|---|---|---|---|---|---|---|
| Three-Stage | 54.14 | 0.892 | 0.849/0.895 | 1.68 | 4.02 | 2.21 | 0.659 | 0.917 | 0.428 |
| w/o Instruct | 54.09 | 0.891 | 0.849/0.894 | 1.70 | 4.03 | 2.09 | 0.652 | 0.922 | 0.427 |
| Two-Stage | 59.66 | 0.902 | 0.849/0.902 | 1.70 | 4.03 | 2.10 | 0.641 | 0.908 | 0.427 |
| w/o Instruct | 59.73 | 0.902 | 0.849/0.902 | 1.69 | 4.03 | 2.05 | 0.638 | 0.902 | 0.425 |
| UniSS | 46.43 | 0.849 | 0.824/0.862 | 3.82 | 4.44 | 1.36 | 0.980 | 0.990 | 0.291 |
| Seamless | 36.13 | 0.806 | 0.767/0.794 | 3.27 | 4.39 | 1.23 | 0.492 | 0.819 | 0.254 |
| Seed Live 2.0 | 41.72 | 0.805 | 0.814/0.854 | 3.53 | 4.41 | 1.09 | 0.342 | 0.819 | 0.348 |
| Step-Audio 2 | 48.37 | 0.865 | 0.838/0.880 | 3.77 | 4.46 | 1.38 | 0.548 | 0.874 | 0.334 |
表4:系统中间文本输出的翻译保真度
| 系统 | zh->en BLEU | COMET | XCOMET/QE | en->zh BLEU | COMET | XCOMET/QE |
|---|---|---|---|---|---|---|
| Three-Stage | 40.61 | 0.826 | 0.812/0.859 | 55.30 | 0.901 | 0.864/0.911 |
| Two-Stage | 43.65 | 0.834 | 0.813/0.857 | 61.51 | 0.914 | 0.867/0.922 |
| UniSS | 30.87 | 0.791 | 0.793/0.814 | 48.91 | 0.875 | 0.840/0.878 |
| Seamless | 17.66 | 0.695 | 0.720/0.702 | 37.87 | 0.824 | 0.805/0.825 |
| Seed Live 2.0 | 26.20 | 0.765 | 0.774/0.796 | 47.99 | 0.876 | 0.841/0.885 |
| Step-Audio 2 | 33.68 | 0.802 | 0.803/0.836 | 50.61 | 0.891 | 0.856/0.900 |
表5:人类相关性分析
| 维度 | 比较 | ρ↑ | p-value | Agr.↑ | MAE↓ |
|---|---|---|---|---|---|
| 情感 | H-H | 0.584 | 8.07e-17 | 0.438 | 0.586 |
| Ls-H | 0.515 | 2.60e-5 | 0.567 | 0.734 | |
| Ld-H | 0.044 | 0.73 | 0.500 | 0.994 | |
| Lc-H | 0.047 | 0.71 | 0.409 | 1.112 | |
| 风格 | H-H | 0.514 | 4.91e-12 | 0.544 | 0.456 |
| Ls-H | 0.427 | 2.01e-3 | 0.640 | 0.568 | |
| Ld-H | 0.158 | 0.21 | 0.515 | 0.952 | |
| Lc-H | 0.147 | 0.24 | 0.530 | 0.803 | |
| NV | H-H | 0.789 | 5.28e-28 | 0.651 | 0.476 |
| Ls-H | 0.518 | 2.66e-4 | 0.644 | 0.874 | |
| Ld-H | -0.009 | 0.95 | 0.200 | 2.422 | |
| Lc-H | 0.193 | 0.20 | 0.511 | 1.207 |
核心发现总结:
- 翻译保真度强,表现力滞后:多数系统(尤其是级联式如Two-Stage)在BLEU/COMET等翻译指标上表现良好,但表现力指标普遍较低。例如,在中译英任务中,级联系统的情感��分(Emo.)仅为1.68-1.73,而端到端系统如UniSS可达3.61。场景风格(Sty.)表现稍好,但最佳得分也仅在4.4左右。
- NV保留受益于显式表示:级联系统(Three-Stage, Two-Stage)通过在文本中显式插入NV标记再驱动TTS,在NV得分上(最佳2.31)显著优于未显式处理NV的端到端系统(最高1.58)。这表明将NV作为离散事件处理目前更为有效。
- 时长对齐需要专门控制:UniSS凭借其显式时长控制设计,在SLC指标上遥遥领先(中译英SLC0.2达0.915),其他系统则远低。这证明时长对齐需要模型具备专门的控制机制。
- 中间文本与最终语音翻译性能相近:表4显示系统生成的中间文本翻译得分与最终语音输出的得分差距很小,表明当前S2ST的主要瓶颈不在语义传递,而在如何将语义与表现力一同保持到语音输出中。
⚖️ 评分理由
- 创新性 (1.5/2):问题定义清晰,直击S2ST评估中忽视表现力的痛点。提出的“描述-总结”无参考评估框架是一个新颖的思路,有效规避了参考语音获取难题。构建的STEB数据集是首个覆盖三个表现力维度的基准,具有明确的开创性。
- 技术严谨性 (1.2/1.5):数据构建流程设计严谨,融合了多种先进模型(BS-Roformer, pyannote, Qwen3系列, BEATs等),并设有自动+人工双重质量验证。评估框架通过与人类评分的相关性分析进行了验证。然而,评估框架本身高度依赖上游模型(如Qwen3-Omni-Captioner)的性能,论文未深入分析这些模型的错误会如何传递和影响最终评估结果。评分规则虽在附录提供,但框架的稳健性(如对描述长度、用词变化的敏感性)未做充分讨论。
- 实验充分性 (1.1/1.5):实验设计合理,对比了六种代表性系统,评估维度全面。然而,实验存在一些局限:1)评估的系统多为商业或未完全开源的模型(如Three/Two-Stage使用Qwen3和VoxCPM2,但VoxCPM2未开源),可复现性受影响。2)缺乏对评估框架自身更全面的消融研究(例如,不同描述详细程度的影响,不同LLM作为裁判的比较)。3)人类相关性研究的样本量(160对)相对较小,且未说明是否覆盖了所有六种场景。
- 清晰度 (1.3/1.5):论文结构清晰,从问题引出、相关工作对比、方法描述到实验分析逻辑连贯。图表(如图1、2)有效辅助了理解。但在方法部分,对“描述-总结”框架中各个LLM角色的具体提示词(Prompt)虽在附录给出,正文中可更清晰地解释其设计意图和影响。
- 影响力 (1.0/1.5):STEB填补了S2ST评估在表现力维度的空白,对推动该领域向更全面评估发展有积极意义。提出的评估思路也可能启发其他语音生成任务的评估。但其影响力受限于:1)仅覆盖中英双语;2)作为评估基准,其直接影响力取决于社区的采纳程度,而论文未开源代码和数据,这严重阻碍了其被立即采用和验证。
- 开源 (0.5/1.5):论文声称将公开代码、数据集和评估脚本,但未提供任何具体链接(GitHub, HuggingFace等)。在评审时,这等同于未开源。仅提供了一个用于展示音频样例的静态网页。作为以“基准”为核心的论文,缺乏开源是重大缺陷。
- 可复现性 (0.5/1.5):由于数据、代码、评估脚本均未开源,且评估所依赖的关键组件(如VoxCPM2 TTS, 多个Qwen3模型)也未提供,其他研究者无法复现论文中的任何实验,也无法使用STEB进行评估。可复现性极低。
- 工程/实践价值 (1.0/1.5):STEB数据集和评估框架本身对S2ST系统的开发和评估具有实践价值,能帮助研究者定位系统短板。自动化流水线的设计也展示了工程可行性。但同样因未开源,其实践价值目前无法被社区直接利用。
🚨 局限与问题
- 开源缺失是关键短板:论文声称将开源,但在发表版本中未提供任何链接。对于一个“基准”论文,这是致命伤,直接阻碍了其被验证、使用和扩展。应被视为主要缺陷。
- 评估框架的泛化性与依赖性风险:整个评估框架严重依赖特定的多模态/文本LLM(Qwen3系列)。这些模型的性能波动、更新或不可用,都会直接影响评估结果的稳定性和可比性。论文未讨论框架对这些模型变更的敏感性,也未提供使用其他开源模型(如Whisper, LLaVA等)作为替代方案的可行性分析。
- 实验系统选择与“最佳”结论的局限性:评估的六个系统中,多个(如Three-Stage, Two-Stage, Step-Audio 2)的具体实现细节(特别是TTS部分使用的VoxCPM2)未公开,难以判断其性能是代表了该技术路径的上限还是受限于特定模块。因此,“级联系统情感保留差”等结论可能因特定TTS模块的选择而产生偏差,未必是级联范式本身的必然结果。
- NV检测与评估的潜在误差:NV子集的构建依赖BEATs模型进行自动检测,其错误(漏检、误检)会污染NV注释和评估基准。虽然论文提到进行了人工验证,但未量化自动NV检测在最终数据集中的准确率,这使得NV维度的评分可信度存在不确定性。
- 场景风格维度的主观性挑战:论文承认场景风格是最主观的维度。尽管LLM裁判显示了与人类评分的相关性,但绝对得分(约4.0-4.4)的区分度可能不足。不同场景(如新闻 vs 评论)的边界本身可能模糊,评估框架是否能敏锐捕捉这种细微差异值得怀疑。
- 语言覆盖与扩展性:当前基准仅覆盖中英双语,限制了其在全球S2ST研究中的适用性。尽管作者声称方法可扩展,但未提供任何跨语言验证或讨论扩展中可能遇到的语言特异性挑战(如形态丰富语言的情感表达差异)。