📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice
#语音翻译 #自回归模型 #大语言模型 #数据集 #预训练
✅ 7.5/10 | 前25% | #语音翻译 | #自回归模型 | #大语言模型 #数据集
学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高
👥 作者与机构
- 第一作者:Sitong Cheng(香港科技大学)
- 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学)
- 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学,通讯作者)、Wei Xue(香港科技大学,通讯作者)
💡 毒舌点评
本文最大的亮点在于“化繁为简”,通过精巧的token设计和提示策略,将复杂的多模态语音翻译任务“降维”成了预训练大语言模型熟悉的序列生成问题,并取得了SOTA级的性能,证明了这条路径的可行性。短板在于其高度依赖特定的、非原创的语音tokenizer(BiCodec, GLM-4)和合成数据集(UniST),这虽然是一种聪明的工程集成,但也意味着其核心创新更多体现在系统集成与训练范式上,而非底层表示学习的突破。
🔗 开源详情
- 代码:论文中未提及代码开源计划或提供代码仓库链接。
- 模型权重:未提及是否公开预训练或微调后的UniSS模型权重。
- 数据集:论文明确贡献了UniST数据集(44.8k小时),并提供了项目主页链接(https://cmots.github.io/uniss-demo),其中可能包含数据获取或申请方式(论文未详细说明获取途径)。
- Demo:提供了在线演示网站(https://cmots.github.io/uniss-demo/)。
- 复现材料:在附录B.1中提供了非常详细的训练配置(三阶段数据、超参数、硬件、优化器设置),并声称遵循可复现原则。引用了使用的开源框架(Megatron-LM)和基础模型(Qwen2.5)。
- 论文中引用的开源项目:Megatron-LM(训练框架),vLLM(推理部署),Transformers库(评估),webMUSHRA(主观评估)。
📌 核心摘要
- 要解决什么问题:现有语音到语音翻译(S2ST)系统存在架构复杂(级联或两阶段)、难以保留说话人音色/情感风格、以及未能充分利用大型语言模型(LLM)预训练翻译能力三大挑战。
- 方法核心是什么:提出UniSS,一个基于预训练LLM(Qwen2.5-1.5B)的单阶段统一S2ST框架。它采用三类离散语音token(说话人token、语言token、语义token)分别建模风格、内容和生成目标,并通过跨模态思维链(CoT)提示(Listen-Translate-Speak)将LLM的文本翻译能力迁移到语音领域。
- 与已有方法相比新在哪里:(1)架构更简单:采用单阶段自回归模型,无需级联或多模态转换器。(2)能力迁移更直接:通过设计的提示格式,显式激活并利用LLM内部的翻译知识,而非将其仅视为黑盒序列转换器。(3)性能更全面:在翻译质量、说话人相似度、情感保持和时长一致性上全面超越现有方法。
- 主要实验结果:在CVSS-T基准上,UniSS (Q) 的英文到中文和中文到英文的Speech-BLEU分别达到32.20和24.28,显著超过基线(如Seamless-Ex的24.45/15.84)。其说话人相似度MOS达4.42,情感相似度MOS达4.51,时长一致性(SLC 0.4)接近完美(0.99/0.97)。关键消融实验证明,去除跨模态CoT提示会导致翻译质量暴跌约15个BLEU点。
- 实际意义是什么:为构建下一代更简单、高效、高质量的语音翻译系统提供了新范式。其发布的UniST大规模数据集(44.8k小时)也极大缓解了该领域高质量平行数据稀缺的问题。
- 主要局限性是什么:(1)模型和方法目前仅验证了中英双向翻译。(2)核心语音tokenizer并非本文原创,词汇表扩展较大。(3)数据集依赖于合成语音,其上限受合成模型质量制约。
🏗️ 模型架构
UniSS是一个端到端的自回归语言模型,其整体架构可概括为“统一tokenization -> LLM自回归生成 -> detokenization合成”。

完整输入输出流程:
输入源语音波形 Xsrc,输出目标语音波形 Ytgt。
主要组件与数据流:
- 语音分词器(Speech Tokenizer):将波形
W转换为三种离散token序列(Sspk, Sling, Ssem)。- 说话人分词器(Speaker Tokenizer):使用BiCodec的全局编码器,提取全局风格属性(音色、情感、韵律),生成固定长度(32个)的说话人token
Sspk。 - 语言分词器(Linguistic Tokenizer):采用GLM-4的语音分词器,基于量化Whisper编码器,提取语义内容,生成可变长度的语言token
Sling(12.5 tokens/秒)。 - 语义分词器(Semantic Tokenizer):使用BiCodec的语义编码器,捕获生成所需的丰富声学信息,生成语义token
Ssem(50 tokens/秒)。
- 说话人分词器(Speaker Tokenizer):使用BiCodec的全局编码器,提取全局风格属性(音色、情感、韵律),生成固定长度(32个)的说话人token
- 统一文本-语音语言模型:骨干网络为预训练的Qwen2.5-1.5B-Instruct。通过扩展词汇表,将上述离散语音token与文本token统一处理。模型输入为拼接的提示序列
P = [ctask, ctgt_lang, cspeed, Sspk_src, Sling_src]。其中ctask(任务模式)、ctgt_lang(目标语言)、cspeed(速度比)是控制token。 - 跨模态CoT提示:这是模型推理的核心。
- 质量模式:模型依次生成:源语言转写文本
Tsrc-> 目标语言翻译文本Ttgt-> 目标语义tokenSsem_tgt。即τout = [Tsrc, Ttgt, Ssem_tgt]。这模拟了“听-理解-翻译-说”的思维链。 - 性能模式:跳过转写步骤,直接生成:
Ttgt -> Ssem_tgt。即τout = [Ttgt, Ssem_tgt],以加速推理。
- 质量模式:模型依次生成:源语言转写文本
- 语音解分词器(Speech Detokenizer):使用BiCodec解码器,将生成的语义token
Ssem_tgt与源说话人tokenSspk_src拼接,直接解码为目标波形Ytgt = Decoder([Sspk_src, Ssem_tgt])。
关键设计选择与动机:
- 三类token分离:动机是解决BiCodec语义token虽利于生成但不利于理解的矛盾。
Sling专注于内容理解,Sspk捕获全局风格,Ssem负责高质量生成,实现了更好的建模分工。 - 基于预训练LLM:直接利用强大的文本理解和生成能力,避免了从头训练巨大模型。
- 控制token:通过
ctask控制推理模式(质量/性能),通过cspeed控制输出语速,增加了灵活性。
💡 核心创新点
单阶段统一架构:
- 是什么:使用单一自回归语言模型完成从语音理解到语音生成的全过程,无需中间文本或声学表征的显式转换模块。
- 之前局限:之前的端到端方法要么需要两阶段(先生成语义token,再生成声学token),要么采用复杂的多流架构(如Hibiki),架构复杂且训练开销大。
- 如何起作用:通过精心设计的三类token,将语音内容、风格和生成目标在同一模型内解耦表示,并通过自回归生成
Ssem直接驱动解码器。 - 收益:极大简化了系统架构,降低了推理延迟和工程复杂度。
跨模态思维链提示:
- 是什么:设计了一种提示格式,引导LLM在生成目标语音前,先显式地“听写”源文本和“翻译”目标文本。
- 之前局限:以往利用LLM做S2ST的工作,往往将LLM仅视为一个序列到序列的转换器,未能有效利用其预训练时学到的、强大的文本翻译能力。
- 如何起作用:
Listen-Translate-Speak的CoT过程相当于为LLM激活了其内部的翻译模块,将语音翻译任务分解为更熟悉的子任务,从而实现了翻译能力从文本到语音的迁移。 - 收益:在CVSS-T上,去除CoT的“Direct S2ST”模式BLEU暴跌14.94点,证明了其对翻译保真度的关键作用。
构建大规模高质量数据集UniST:
- 是什么:设计了一套可扩展的数据合成流水线,利用现有TTS语料、大语言模型翻译和表现力TTS模型,构建了44.8k小时的中英S2ST数据集。
- 之前局限:现有S2ST数据集规模小(如CVSS-T仅11小时),或来自网络爬取、质量参差不齐,不足以训练强大的统一模型。
- 如何起作用:流程为:原始语音-文本对 -> 质量过滤 -> 文本翻译 -> 条件化语音合成(保留原声音色) -> 二次质量过滤(ASR + 时长比)。
- 收益:提供了训练UniSS所需的大规模、高质量、带风格保留的平行数据,数据集本身也是一项重要贡献。
🔬 细节详述
- 训练数据:
- 第一阶段(对齐):77.1k小时的多语言语音数据(来源见附录,包括AISHELL-3, LibriTTS-R等) + 2.3B MT tokens (WMT17)。用于ASR, TTS, S2TT, MT多任务学习。
- 第二阶段(S2ST):UniST General数据集(44.8k小时)与第一阶段数据按2:1混合。
- 第三阶段(精炼):仅使用UniST High-Quality数据集(19.8k小时)。
- 数据集UniST特点:提供两种变体。General版数据多样性高;High-Quality版时长一致性更好(时长比在[0.7,1.5])。
- 损失函数:标准的自回归语言模型损失(下一token预测),如公式(1)所示:
LAR = - Σ log Pθ(τout,t | P, τout,<t)。 - 训练策略(渐进式三阶段):
- 阶段1:语音-文本对齐:学习率8e-4,常量,warmup 1个epoch。训练3个epoch。
- 阶段2:S2ST with CoT:学习率2e-4,常量,warmup 5% epoch。训练1个epoch。
- 阶段3:精炼:学习率从5e-5余弦退火至5e-6。训练0.9个epoch。
- 关键超参数:
- 模型大小:骨干为Qwen2.5-1.5B-Instruct。
- 词汇表大小:扩展至180,407。
- Batch Size:全局2.3M tokens。
- 优化器:AdamW (weight decay=0.1, momentum=0.9, 0.95)。
- 训练硬件:16块NVIDIA H800 80G GPU,使用Megatron-LM框架。三阶段训练总计约6天。
- 推理细节:使用vLLM部署。解码温度0.7,top-k=-1,top-p=0.8,重复惩罚1.1。支持质量和性能两种模式。
- 正则化或稳定训练技巧:未明确提及Dropout等正则化技巧。阶段3的余弦学习率退火有助于稳定训练。
📊 实验结果
主要基准与指标:CVSS-T(中英双向),FLEURS(中英子集)。指标包括:Speech-BLEU, Text-BLEU, A.PCP(韵律相似度),SLC 0.2/0.4(时长一致性),UTMOS(语音质量),以及主观MOS(情感相似度、说话人相似度、自然度)。
主要对比结果(CVSS-T):
| 类别 | 模型 | 大小 | Speech-BLEU (EN-ZH) | Speech-BLEU (ZH-EN) | SLC 0.4 (EN-ZH) | SLC 0.4 (ZH-EN) | UTMOS (EN-ZH) |
|---|---|---|---|---|---|---|---|
| 级联 | 3-Stage-LLM | 3.5B | 26.74 | 17.69 | 0.87 | 0.84 | 3.76 |
| MLLM | GPT-4o | - | 31.64 | 19.27 | 0.71 | 0.61 | 3.46 |
| 端到端S2ST | Seamless-Ex | 1.7B | 24.45 | 15.84 | 0.94 | 0.77 | 2.46 |
| 本文 | UniSS (P) | 1.5B | 30.28 | 23.61 | 0.99 | 0.97 | 3.77 |
| 本文 | UniSS (Q) | 1.5B | 32.20 | 24.28 | 0.99 | 0.97 | 3.76 |
图1展示了UniSS(红色)在翻译保真度(Speech-BLEU)、说话人相似度(Voice SIM)、时长一致性(Duration Consistency)和语音质量(UTMOS)上全面优于之前的级联和端到端方法(蓝色区域),并有效转移了LLM的文本翻译能力。
关键结果分析:
- 翻译保真度:UniSS (Q) 的Speech-BLEU在EN-ZH上超越GPT-4o(32.20 vs 31.64),在ZH-EN上大幅领先所有基线。
- 风格与质量保持:主观MOS显示,UniSS (Q) 的情感相似度(4.51)接近顶级闭源系统Seed Live(4.56),说话人相似度(4.42)为最高。
- 时长一致性:UniSS在SLC指标上接近完美(0.99/0.97),远超其他模型。
- 消融实验:
- 去除第三阶段精炼:BLEU下降0.90/2.06。
- 仅使用UniST数据训练(无第一阶段对齐):BLEU暴跌7.18/10.15,证明对齐阶段关键。
- 使用语义token替代语言token(w/o GLM):BLEU暴跌15.01/8.73,证明专用语言token对理解的重要性。
- 采用直接S2ST(无CoT):BLEU暴跌14.94/14.40,证明CoT提示的核心作用。
- 效率-质量权衡:性能模式比质量模式快1.07倍,BLEU仅下降1.84点。更小的UniSS-Small (0.5B) 也展示了竞争力。
⚖️ 评分理由
- 学术质量:6.5/7:论文创新性地提出了一个简洁的单阶段框架,并通过跨模态CoT提示有效迁移LLM能力,技术路线清晰且经过充分实验验证。主要扣分点在于其语音tokenizer组件并非自研,且部分技术细节(如CoT的具体提示模板)在附录中才可见,主体的深度剖析稍显不足。
- 选题价值:1.0/2:语音到语音翻译是跨语言交流和内容本地化的刚需,且随着大模型发展正处于技术范式转型期。本文的工作直指当前系统的痛点,具有很高的学术价值和明确的应用前景。
- 开源与复现加成:0.0/1:论文提供了高质量数据集UniST的详细构建方法和演示链接,并公开了详尽的训练配置。但缺少模型权重和核心代码的明确开源声明,这限制了社区的直接复现和快速验证。