📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice
#语音翻译 #大语言模型 #语音合成 #端到端 #多语言
🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Sitong Cheng(香港科技大学)
- 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学)
- 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学)、Wei Xue(香港科技大学)
💡 毒舌点评
该论文的亮点在于其“大道至简”的哲学,用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题,性能数据非常亮眼。然而,其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上,这使得结果的说服力打了些折扣——毕竟,如果给其他SOTA模型同样规模的定制数据,结果差距可能会缩小。此外,其多标记符的复杂分词策略在工程实现和通用性上是否是最优解,也值得商榷。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。仅提供了演示网站。
- 模型权重:基于Qwen2.5-1.5B-Instruct,论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。
- 数据集:UniST数据集已构建,论文提到“公开”(release),但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。
- Demo:提供了在线演示网站:https://cmots.github.io/uniss-demo/
- 复现材料:在附录B.1中提供了极其详细的训练配置(阶段、数据、学习率、批次大小等),在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分,主要缺省是官方代码仓库。
- 论文中引用的开源项目:Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。
📌 核心摘要
这篇论文要解决的是表达式语音到语音翻译(S2ST)中的三大挑战:保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型,它基于预训练的Qwen2.5-1.5B-Instruct构建,使用三种语音标记(说话人标记、语言标记、语义标记)来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链(CoT)提示,在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤,从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型,论文还构建了一个大规模、高质量的合成数据集UniST(44.8k小时)。实验结果(主要见表1)表明,在CVSS-T数据集上,UniSS(质量模式)在翻译保真度(Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28)、时长一致性(SLC 0.2: 0.98/0.87)和语音质量(UTMOS: 3.76/3.86)上均显著优于现有的端到端和级联系统。主观评估(表2)也证实其在情感相似度(MOS 4.51)和说话人相似度(4.42)上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语,且其分词器来自不同模型,导致词表膨胀。
🏗️ 模型架构
UniSS是一个统一的自回归(AR)语言模型,用于表达式语音到语音翻译。其整体架构如图2所示。

整体输入输出流程: 输入为源语音波形 \(X_{src}\),经过三个分词器处理得到源说话人标记 \(S^{src}_{spk}\) 和源语言标记 \(S^{src}_{ling}\)。模型以这些标记加上任务控制标记(模式、目标语言、速度比)为提示,自回归地生成目标语义标记序列 \(S^{tgt}_{sem}\)。最后,目标语义标记与源说话人标记一起送入解码器,重构出目标波形 \(Y_{tgt}\)。
主要组件与功能:
- 统一文本-语音语言模型:基于预训练的Qwen2.5-1.5B-Instruct,通过扩展词表(包含所有语音标记和控制标记)来统一处理文本和语音模态。模型仅进行标准的下一个标记预测训练。
- 语音分词器(Tokenizer):采用三元标记策略:
- 说话人标记 \(S_{spk}\):使用BiCodec的全局编码器提取,固定长度为32个标记,用于捕获音色、情感、韵律等全局风格属性。
- 语言标记 \(S_{ling}\):使用GLM-4的语音分词器(基于量化的Whisper编码器),可变长度,速率为12.5标记/秒,专门用于编码语音内容,便于理解。
- 语义标记 \(S_{sem}\):使用BiCodec的编码器,速率50标记/秒,用于表示可直接解码为波形的生成目标。 这种设计将风格、内容和生成信息分离,使模型能更准确地建模。
- 语音解码器(Detokenizer):采用BiCodec的解码器,以条件拼接的方式工作:\(Y_{tgt} = Decoder([S^{src}_{spk}, S^{tgt}_{sem}])\)。它直接在16kHz采样率下重构高保真音频。
- 跨模态思维链(CoT)提示:这是在推理时通过控制标记 \(c_{task}\) 实现的两种模式:
- 质量模式(Quality Mode):完整CoT路径,模型输出为 \([T_{src}, T_{tgt}, S^{tgt}_{sem}]\),即先转写、再翻译、最后生成语音标记,充分利用LLM的文本翻译能力。
- 性能模式(Performance Mode):压缩路径,跳过转写,输出为 \([T_{tgt}, S^{tgt}_{sem}]\),即先生成目标文本再生成语音标记,以提升速度。
💡 核心创新点
- 统一的单阶段架构:与以往需要多个AR模型或复杂级联的系统不同,UniSS将语音理解、翻译和生成统一在一个标准的、未修改的LLM框架内,极大简化了架构。这得益于其精心设计的分离式语音分词策略。
- 跨模态CoT提示转移翻译能力:首次将文本LLM中预训练的强大翻译能力,通过一种可控制的“听-译-说”思维链提示流程,显式且有效地迁移到了语音翻译任务中,而不仅仅是将LLM当作通用序列转换器。
- 大规模高质量合成数据集UniST:为解决数据稀缺问题,设计了一个可扩展的合成流程,利用现有TTS语料库、翻译模型和声音克隆TTS,构建了一个44.8k小时的中英双语表达式S2ST数据集,并提供了通用版和高质量版。
🔬 细节详述
- 训练数据:
- Phase 1 (对齐):77.1k小时的多语言语音数据(来源包括AISHELL-3, CoVoST2, Common Voice等)用于ASR、TTS、S2TT任务,以及WMT17的2.3B标记文本用于MT任务。
- Phase 2 (CoT训练):UniST General数据集(44.8k小时)与Phase 1数据以2:1比例混合。
- Phase 3 (细化):仅使用UniST High-Quality数据集(19.8k小时)。
- 数据集构建:从多个公开TTS语料库开始,用Paraformer进行WER过滤;用Qwen2.5-72B-Instruct进行文本翻译;用SparkTTS进行语音合成,同时计算并离散化速度比;最后通过ASR过滤和时长比过滤进行质量控制。
- 损失函数:标准的自回归语言模型负对数似然损失,见公式(1)。
- 训练策略:三阶段渐进训练。
- Phase 1:学习率 8e-4(恒定),1 epoch warm-up,训练3 epochs,约32B标记/epoch。
- Phase 2:学习率 2e-4(恒定),5% epoch warm-up,训练1 epoch,约55B总标记。
- Phase 3:学习率从5e-5余弦退火至5e-6,训练1 epoch(约10B标记),在0.9 epoch处取最优检查点。
- 关键超参数:词表大小扩展至180,407。批次大小为2.3M标记。
- 训练硬件:16块NVIDIA H800 80GB GPU,使用Megatron-LM框架。三阶段训练总计约6天。
- 推理细节:使用vLLM部署。解码温度0.7,top-p 0.8,重复惩罚1.1。
- 正则化:使用了权重衰减(0.1)和余弦学习率退火。
📊 实验结果
论文在CVSS-T和FLEURS数据集上进行了广泛评估。
主要结果(CVSS-T数据集):如表1所示,UniSS在翻译保真度(Speech-BLEU)、时长一致性(SLC)和语音质量(UTMOS)上全面超越了现有端到端和级联基线。例如,在EN-ZH方向,UniSS(Q)的Speech-BLEU为32.20,比最强基线2-Stage(26.94)高出5.26点。其时长一致性SLC 0.2达到0.98,远高于其他系统。
| 类别 | 模型 | 大小 | Speech-BLEU (EN-ZH | ZH-EN) | SLC 0.2 (EN-ZH | ZH-EN) | UTMOS (EN-ZH | ZH-EN) | | :— | :— | :— | :— | :— | :— | :— | | S2ST (最强基线) | Seamless-Ex | 1.7B | 24.45 | 15.84 | 0.68 | 0.52 | 2.46 | 2.90 | | UniSS (P) | UniSS (性能模式) | 1.5B | 30.28 | 23.61 | 0.98 | 0.84 | 3.77 | 3.86 | | UniSS (Q) | UniSS (质量模式) | 1.5B | 32.20 | 24.28 | 0.98 | 0.87 | 3.76 | 3.86 |
主观评估(情感数据集):如表2所示,UniSS(Q)在情感相似度(4.51)和说话人相似度(4.42)上取得了最佳分数,接近闭源系统Seed LiveInterpret 2.0(情感4.56)。
速度-质量权衡:如表3所示,性能模式相比质量模式有1.07倍的加速,同时Speech-BLEU仅下降1.84点,提供了灵活的效率-质量选择。
消融研究(表4):证明了三阶段渐进训练的有效性(去除Phase 3性能下降2.06点)、使用GLM-4语言分词器的必要性(去除则性能骤降8.73点)以及CoT框架的重要性(直接S2ST性能暴跌14.40点)。
其他结果:在FLEURS数据集上(表D3),UniSS同样表现出色,证明了其鲁棒性。此外,论文还展示了UniSS在S2TT、ASR和TTS任务上的能力(表D4)。

此图显示了表1中的主要性能对比数据,直观展示了UniSS在各项指标上的优势。
⚖️ 评分理由
- 学术质量:6.0/7。论文提出了一个设计巧妙、实验充分的统一框架,其跨模态CoT提示是有效的创新。技术实现正确,实验对比全面,涵盖了客观、主观评估和消融研究,证据可信度高。但其核心架构创新(单一LLM处理多模态)在概念上并非全新,且对自建合成数据集的依赖在一定程度上削弱了无偏比较的说服力。
- 选题价值:1.5/2。表达式S2ST是语音AI的前沿方向,具有极高的实际应用价值(如实时同声传译、跨语言视频配音)。该工作提出了一种更简单有效的范式,对领域发展有明确的推动作用,与语音/音频领域读者高度相关。
- 开源与复现加成:0.5/1。论文提供了详细的训练配置、超参数和评估设置。公开了数据集构建流程、模型权重(基于Qwen2.5-1.5B)和演示网站(https://cmots.github.io/uniss-demo/)。然而,论文中未明确提及是否开源完整的训练和推理代码仓库(如GitHub链接),这为完全复现增加了一定障碍,因此给予中等加成。