📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

#语音翻译 #自回归模型 #大语言模型 #数据集 #预训练

7.5/10 | 前25% | #语音翻译 | #自回归模型 | #大语言模型 #数据集

学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高

👥 作者与机构

  • 第一作者:Sitong Cheng(香港科技大学)
  • 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学)
  • 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学,通讯作者)、Wei Xue(香港科技大学,通讯作者)

💡 毒舌点评

本文最大的亮点在于“化繁为简”,通过精巧的token设计和提示策略,将复杂的多模态语音翻译任务“降维”成了预训练大语言模型熟悉的序列生成问题,并取得了SOTA级的性能,证明了这条路径的可行性。短板在于其高度依赖特定的、非原创的语音tokenizer(BiCodec, GLM-4)和合成数据集(UniST),这虽然是一种聪明的工程集成,但也意味着其核心创新更多体现在系统集成与训练范式上,而非底层表示学习的突破。

🔗 开源详情

  • 代码:论文中未提及代码开源计划或提供代码仓库链接。
  • 模型权重:未提及是否公开预训练或微调后的UniSS模型权重。
  • 数据集:论文明确贡献了UniST数据集(44.8k小时),并提供了项目主页链接(https://cmots.github.io/uniss-demo),其中可能包含数据获取或申请方式(论文未详细说明获取途径)。
  • Demo:提供了在线演示网站(https://cmots.github.io/uniss-demo/)。
  • 复现材料:在附录B.1中提供了非常详细的训练配置(三阶段数据、超参数、硬件、优化器设置),并声称遵循可复现原则。引用了使用的开源框架(Megatron-LM)和基础模型(Qwen2.5)。
  • 论文中引用的开源项目:Megatron-LM(训练框架),vLLM(推理部署),Transformers库(评估),webMUSHRA(主观评估)。

📌 核心摘要

  1. 要解决什么问题:现有语音到语音翻译(S2ST)系统存在架构复杂(级联或两阶段)、难以保留说话人音色/情感风格、以及未能充分利用大型语言模型(LLM)预训练翻译能力三大挑战。
  2. 方法核心是什么:提出UniSS,一个基于预训练LLM(Qwen2.5-1.5B)的单阶段统一S2ST框架。它采用三类离散语音token(说话人token、语言token、语义token)分别建模风格、内容和生成目标,并通过跨模态思维链(CoT)提示(Listen-Translate-Speak)将LLM的文本翻译能力迁移到语音领域。
  3. 与已有方法相比新在哪里:(1)架构更简单:采用单阶段自回归模型,无需级联或多模态转换器。(2)能力迁移更直接:通过设计的提示格式,显式激活并利用LLM内部的翻译知识,而非将其仅视为黑盒序列转换器。(3)性能更全面:在翻译质量、说话人相似度、情感保持和时长一致性上全面超越现有方法。
  4. 主要实验结果:在CVSS-T基准上,UniSS (Q) 的英文到中文和中文到英文的Speech-BLEU分别达到32.20和24.28,显著超过基线(如Seamless-Ex的24.45/15.84)。其说话人相似度MOS达4.42,情感相似度MOS达4.51,时长一致性(SLC 0.4)接近完美(0.99/0.97)。关键消融实验证明,去除跨模态CoT提示会导致翻译质量暴跌约15个BLEU点。
  5. 实际意义是什么:为构建下一代更简单、高效、高质量的语音翻译系统提供了新范式。其发布的UniST大规模数据集(44.8k小时)也极大缓解了该领域高质量平行数据稀缺的问题。
  6. 主要局限性是什么:(1)模型和方法目前仅验证了中英双向翻译。(2)核心语音tokenizer并非本文原创,词汇表扩展较大。(3)数据集依赖于合成语音,其上限受合成模型质量制约。

🏗️ 模型架构

UniSS是一个端到端的自回归语言模型,其整体架构可概括为“统一tokenization -> LLM自回归生成 -> detokenization合成”。

图2:UniSS框架、跨模态CoT提示与三阶段渐进式训练示意图

完整输入输出流程: 输入源语音波形 Xsrc,输出目标语音波形 Ytgt

主要组件与数据流:

  1. 语音分词器(Speech Tokenizer):将波形 W 转换为三种离散token序列 (Sspk, Sling, Ssem)
    • 说话人分词器(Speaker Tokenizer):使用BiCodec的全局编码器,提取全局风格属性(音色、情感、韵律),生成固定长度(32个)的说话人token Sspk
    • 语言分词器(Linguistic Tokenizer):采用GLM-4的语音分词器,基于量化Whisper编码器,提取语义内容,生成可变长度的语言token Sling(12.5 tokens/秒)。
    • 语义分词器(Semantic Tokenizer):使用BiCodec的语义编码器,捕获生成所需的丰富声学信息,生成语义token Ssem(50 tokens/秒)。
  2. 统一文本-语音语言模型:骨干网络为预训练的Qwen2.5-1.5B-Instruct。通过扩展词汇表,将上述离散语音token与文本token统一处理。模型输入为拼接的提示序列 P = [ctask, ctgt_lang, cspeed, Sspk_src, Sling_src]。其中 ctask(任务模式)、ctgt_lang(目标语言)、cspeed(速度比)是控制token。
  3. 跨模态CoT提示:这是模型推理的核心。
    • 质量模式:模型依次生成:源语言转写文本 Tsrc -> 目标语言翻译文本 Ttgt -> 目标语义token Ssem_tgt。即 τout = [Tsrc, Ttgt, Ssem_tgt]。这模拟了“听-理解-翻译-说”的思维链。
    • 性能模式:跳过转写步骤,直接生成:Ttgt -> Ssem_tgt。即 τout = [Ttgt, Ssem_tgt],以加速推理。
  4. 语音解分词器(Speech Detokenizer):使用BiCodec解码器,将生成的语义token Ssem_tgt 与源说话人token Sspk_src 拼接,直接解码为目标波形 Ytgt = Decoder([Sspk_src, Ssem_tgt])

关键设计选择与动机:

  • 三类token分离:动机是解决BiCodec语义token虽利于生成但不利于理解的矛盾。Sling专注于内容理解,Sspk捕获全局风格,Ssem负责高质量生成,实现了更好的建模分工。
  • 基于预训练LLM:直接利用强大的文本理解和生成能力,避免了从头训练巨大模型。
  • 控制token:通过 ctask 控制推理模式(质量/性能),通过 cspeed 控制输出语速,增加了灵活性。

💡 核心创新点

  1. 单阶段统一架构:

    • 是什么:使用单一自回归语言模型完成从语音理解到语音生成的全过程,无需中间文本或声学表征的显式转换模块。
    • 之前局限:之前的端到端方法要么需要两阶段(先生成语义token,再生成声学token),要么采用复杂的多流架构(如Hibiki),架构复杂且训练开销大。
    • 如何起作用:通过精心设计的三类token,将语音内容、风格和生成目标在同一模型内解耦表示,并通过自回归生成 Ssem 直接驱动解码器。
    • 收益:极大简化了系统架构,降低了推理延迟和工程复杂度。
  2. 跨模态思维链提示:

    • 是什么:设计了一种提示格式,引导LLM在生成目标语音前,先显式地“听写”源文本和“翻译”目标文本。
    • 之前局限:以往利用LLM做S2ST的工作,往往将LLM仅视为一个序列到序列的转换器,未能有效利用其预训练时学到的、强大的文本翻译能力。
    • 如何起作用:Listen-Translate-Speak 的CoT过程相当于为LLM激活了其内部的翻译模块,将语音翻译任务分解为更熟悉的子任务,从而实现了翻译能力从文本到语音的迁移。
    • 收益:在CVSS-T上,去除CoT的“Direct S2ST”模式BLEU暴跌14.94点,证明了其对翻译保真度的关键作用。
  3. 构建大规模高质量数据集UniST:

    • 是什么:设计了一套可扩展的数据合成流水线,利用现有TTS语料、大语言模型翻译和表现力TTS模型,构建了44.8k小时的中英S2ST数据集。
    • 之前局限:现有S2ST数据集规模小(如CVSS-T仅11小时),或来自网络爬取、质量参差不齐,不足以训练强大的统一模型。
    • 如何起作用:流程为:原始语音-文本对 -> 质量过滤 -> 文本翻译 -> 条件化语音合成(保留原声音色) -> 二次质量过滤(ASR + 时长比)。
    • 收益:提供了训练UniSS所需的大规模、高质量、带风格保留的平行数据,数据集本身也是一项重要贡献。

🔬 细节详述

  • 训练数据:
    • 第一阶段(对齐):77.1k小时的多语言语音数据(来源见附录,包括AISHELL-3, LibriTTS-R等) + 2.3B MT tokens (WMT17)。用于ASR, TTS, S2TT, MT多任务学习。
    • 第二阶段(S2ST):UniST General数据集(44.8k小时)与第一阶段数据按2:1混合。
    • 第三阶段(精炼):仅使用UniST High-Quality数据集(19.8k小时)。
    • 数据集UniST特点:提供两种变体。General版数据多样性高;High-Quality版时长一致性更好(时长比在[0.7,1.5])。
  • 损失函数:标准的自回归语言模型损失(下一token预测),如公式(1)所示:LAR = - Σ log Pθ(τout,t | P, τout,<t)
  • 训练策略(渐进式三阶段):
    • 阶段1:语音-文本对齐:学习率8e-4,常量,warmup 1个epoch。训练3个epoch。
    • 阶段2:S2ST with CoT:学习率2e-4,常量,warmup 5% epoch。训练1个epoch。
    • 阶段3:精炼:学习率从5e-5余弦退火至5e-6。训练0.9个epoch。
  • 关键超参数:
    • 模型大小:骨干为Qwen2.5-1.5B-Instruct。
    • 词汇表大小:扩展至180,407。
    • Batch Size:全局2.3M tokens。
    • 优化器:AdamW (weight decay=0.1, momentum=0.9, 0.95)。
  • 训练硬件:16块NVIDIA H800 80G GPU,使用Megatron-LM框架。三阶段训练总计约6天。
  • 推理细节:使用vLLM部署。解码温度0.7,top-k=-1,top-p=0.8,重复惩罚1.1。支持质量和性能两种模式。
  • 正则化或稳定训练技巧:未明确提及Dropout等正则化技巧。阶段3的余弦学习率退火有助于稳定训练。

📊 实验结果

主要基准与指标:CVSS-T(中英双向),FLEURS(中英子集)。指标包括:Speech-BLEU, Text-BLEU, A.PCP(韵律相似度),SLC 0.2/0.4(时长一致性),UTMOS(语音质量),以及主观MOS(情感相似度、说话人相似度、自然度)。

主要对比结果(CVSS-T):

类别模型大小Speech-BLEU (EN-ZH)Speech-BLEU (ZH-EN)SLC 0.4 (EN-ZH)SLC 0.4 (ZH-EN)UTMOS (EN-ZH)
级联3-Stage-LLM3.5B26.7417.690.870.843.76
MLLMGPT-4o-31.6419.270.710.613.46
端到端S2STSeamless-Ex1.7B24.4515.840.940.772.46
本文UniSS (P)1.5B30.2823.610.990.973.77
本文UniSS (Q)1.5B32.2024.280.990.973.76

图1:UniSS与现有方法的性能对比雷达图 图1展示了UniSS(红色)在翻译保真度(Speech-BLEU)、说话人相似度(Voice SIM)、时长一致性(Duration Consistency)和语音质量(UTMOS)上全面优于之前的级联和端到端方法(蓝色区域),并有效转移了LLM的文本翻译能力。

关键结果分析:

  • 翻译保真度:UniSS (Q) 的Speech-BLEU在EN-ZH上超越GPT-4o(32.20 vs 31.64),在ZH-EN上大幅领先所有基线。
  • 风格与质量保持:主观MOS显示,UniSS (Q) 的情感相似度(4.51)接近顶级闭源系统Seed Live(4.56),说话人相似度(4.42)为最高。
  • 时长一致性:UniSS在SLC指标上接近完美(0.99/0.97),远超其他模型。
  • 消融实验:
    • 去除第三阶段精炼:BLEU下降0.90/2.06。
    • 仅使用UniST数据训练(无第一阶段对齐):BLEU暴跌7.18/10.15,证明对齐阶段关键。
    • 使用语义token替代语言token(w/o GLM):BLEU暴跌15.01/8.73,证明专用语言token对理解的重要性。
    • 采用直接S2ST(无CoT):BLEU暴跌14.94/14.40,证明CoT提示的核心作用。
  • 效率-质量权衡:性能模式比质量模式快1.07倍,BLEU仅下降1.84点。更小的UniSS-Small (0.5B) 也展示了竞争力。

⚖️ 评分理由

  • 学术质量:6.5/7:论文创新性地提出了一个简洁的单阶段框架,并通过跨模态CoT提示有效迁移LLM能力,技术路线清晰且经过充分实验验证。主要扣分点在于其语音tokenizer组件并非自研,且部分技术细节(如CoT的具体提示模板)在附录中才可见,主体的深度剖析稍显不足。
  • 选题价值:1.0/2:语音到语音翻译是跨语言交流和内容本地化的刚需,且随着大模型发展正处于技术范式转型期。本文的工作直指当前系统的痛点,具有很高的学术价值和明确的应用前景。
  • 开源与复现加成:0.0/1:论文提供了高质量数据集UniST的详细构建方法和演示链接,并公开了详尽的训练配置。但缺少模型权重和核心代码的明确开源声明,这限制了社区的直接复现和快速验证。

← 返回 ICLR 2026 论文分析