📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

#语音翻译 #大语言模型 #语音合成 #端到端 #多语言

🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Sitong Cheng（香港科技大学）
通讯作者：Yike Guo（香港科技大学），Wei Xue（香港科技大学）
作者列表：Sitong Cheng（香港科技大学）、Weizhen Bian（香港科技大学）、Xinsheng Wang（Soul AI Lab）、Ruibin Yuan（香港科技大学）、Jianyi Chen（香港科技大学）、Shunshun Yin（Soul AI Lab）、Yike Guo（香港科技大学）、Wei Xue（香港科技大学）

💡 毒舌点评

该论文的亮点在于其“大道至简”的哲学，用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题，性能数据非常亮眼。然而，其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上，这使得结果的说服力打了些折扣——毕竟，如果给其他SOTA模型同样规模的定制数据，结果差距可能会缩小。此外，其多标记符的复杂分词策略在工程实现和通用性上是否是最优解，也值得商榷。

🔗 开源详情

代码：论文中未提及代码仓库链接。仅提供了演示网站。
模型权重：基于Qwen2.5-1.5B-Instruct，论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。
数据集：UniST数据集已构建，论文提到“公开”（release），但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。
Demo：提供了在线演示网站：https://cmots.github.io/uniss-demo/
复现材料：在附录B.1中提供了极其详细的训练配置（阶段、数据、学习率、批次大小等），在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分，主要缺省是官方代码仓库。
论文中引用的开源项目：Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。

📌 核心摘要

这篇论文要解决的是表达式语音到语音翻译（S2ST）中的三大挑战：保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型，它基于预训练的Qwen2.5-1.5B-Instruct构建，使用三种语音标记（说话人标记、语言标记、语义标记）来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链（CoT）提示，在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤，从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型，论文还构建了一个大规模、高质量的合成数据集UniST（44.8k小时）。实验结果（主要见表1）表明，在CVSS-T数据集上，UniSS（质量模式）在翻译保真度（Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28）、时长一致性（SLC 0.2: 0.98/0.87）和语音质量（UTMOS: 3.76/3.86）上均显著优于现有的端到端和级联系统。主观评估（表2）也证实其在情感相似度（MOS 4.51）和说话人相似度（4.42）上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语，且其分词器来自不同模型，导致词表膨胀。

🏗️ 模型架构

UniSS是一个统一的自回归（AR）语言模型，用于表达式语音到语音翻译。其整体架构如图2所示。

UniSS模型架构图

整体输入输出流程：输入为源语音波形 \(X_{src}\)，经过三个分词器处理得到源说话人标记 \(S^{src}_{spk}\) 和源语言标记 \(S^{src}_{ling}\)。模型以这些标记加上任务控制标记（模式、目标语言、速度比）为提示，自回归地生成目标语义标记序列 \(S^{tgt}_{sem}\)。最后，目标语义标记与源说话人标记一起送入解码器，重构出目标波形 \(Y_{tgt}\)。

主要组件与功能：

统一文本-语音语言模型：基于预训练的Qwen2.5-1.5B-Instruct，通过扩展词表（包含所有语音标记和控制标记）来统一处理文本和语音模态。模型仅进行标准的下一个标记预测训练。
语音分词器（Tokenizer）：采用三元标记策略：
- 说话人标记 \(S_{spk}\)：使用BiCodec的全局编码器提取，固定长度为32个标记，用于捕获音色、情感、韵律等全局风格属性。
- 语言标记 \(S_{ling}\)：使用GLM-4的语音分词器（基于量化的Whisper编码器），可变长度，速率为12.5标记/秒，专门用于编码语音内容，便于理解。
- 语义标记 \(S_{sem}\)：使用BiCodec的编码器，速率50标记/秒，用于表示可直接解码为波形的生成目标。这种设计将风格、内容和生成信息分离，使模型能更准确地建模。
语音解码器（Detokenizer）：采用BiCodec的解码器，以条件拼接的方式工作：\(Y_{tgt} = Decoder([S^{src}_{spk}, S^{tgt}_{sem}])\)。它直接在16kHz采样率下重构高保真音频。
跨模态思维链（CoT）提示：这是在推理时通过控制标记 \(c_{task}\) 实现的两种模式：
- 质量模式（Quality Mode）：完整CoT路径，模型输出为 \([T_{src}, T_{tgt}, S^{tgt}_{sem}]\)，即先转写、再翻译、最后生成语音标记，充分利用LLM的文本翻译能力。
- 性能模式（Performance Mode）：压缩路径，跳过转写，输出为 \([T_{tgt}, S^{tgt}_{sem}]\)，即先生成目标文本再生成语音标记，以提升速度。

💡 核心创新点

统一的单阶段架构：与以往需要多个AR模型或复杂级联的系统不同，UniSS将语音理解、翻译和生成统一在一个标准的、未修改的LLM框架内，极大简化了架构。这得益于其精心设计的分离式语音分词策略。
跨模态CoT提示转移翻译能力：首次将文本LLM中预训练的强大翻译能力，通过一种可控制的“听-译-说”思维链提示流程，显式且有效地迁移到了语音翻译任务中，而不仅仅是将LLM当作通用序列转换器。
大规模高质量合成数据集UniST：为解决数据稀缺问题，设计了一个可扩展的合成流程，利用现有TTS语料库、翻译模型和声音克隆TTS，构建了一个44.8k小时的中英双语表达式S2ST数据集，并提供了通用版和高质量版。

🔬 细节详述

训练数据：
- Phase 1 (对齐)：77.1k小时的多语言语音数据（来源包括AISHELL-3, CoVoST2, Common Voice等）用于ASR、TTS、S2TT任务，以及WMT17的2.3B标记文本用于MT任务。
- Phase 2 (CoT训练)：UniST General数据集（44.8k小时）与Phase 1数据以2:1比例混合。
- Phase 3 (细化)：仅使用UniST High-Quality数据集（19.8k小时）。
- 数据集构建：从多个公开TTS语料库开始，用Paraformer进行WER过滤；用Qwen2.5-72B-Instruct进行文本翻译；用SparkTTS进行语音合成，同时计算并离散化速度比；最后通过ASR过滤和时长比过滤进行质量控制。
损失函数：标准的自回归语言模型负对数似然损失，见公式(1)。
训练策略：三阶段渐进训练。
- Phase 1：学习率 8e-4（恒定），1 epoch warm-up，训练3 epochs，约32B标记/epoch。
- Phase 2：学习率 2e-4（恒定），5% epoch warm-up，训练1 epoch，约55B总标记。
- Phase 3：学习率从5e-5余弦退火至5e-6，训练1 epoch（约10B标记），在0.9 epoch处取最优检查点。
关键超参数：词表大小扩展至180,407。批次大小为2.3M标记。
训练硬件：16块NVIDIA H800 80GB GPU，使用Megatron-LM框架。三阶段训练总计约6天。
推理细节：使用vLLM部署。解码温度0.7，top-p 0.8，重复惩罚1.1。
正则化：使用了权重衰减（0.1）和余弦学习率退火。

📊 实验结果

论文在CVSS-T和FLEURS数据集上进行了广泛评估。

主要结果（CVSS-T数据集）：如表1所示，UniSS在翻译保真度（Speech-BLEU）、时长一致性（SLC）和语音质量（UTMOS）上全面超越了现有端到端和级联基线。例如，在EN-ZH方向，UniSS(Q)的Speech-BLEU为32.20，比最强基线2-Stage（26.94）高出5.26点。其时长一致性SLC 0.2达到0.98，远高于其他系统。

| 类别 | 模型 | 大小 | Speech-BLEU (EN-ZH | ZH-EN) | SLC 0.2 (EN-ZH | ZH-EN) | UTMOS (EN-ZH | ZH-EN) | | :— | :— | :— | :— | :— | :— | :— | | S2ST (最强基线) | Seamless-Ex | 1.7B | 24.45 | 15.84 | 0.68 | 0.52 | 2.46 | 2.90 | | UniSS (P) | UniSS (性能模式) | 1.5B | 30.28 | 23.61 | 0.98 | 0.84 | 3.77 | 3.86 | | UniSS (Q) | UniSS (质量模式) | 1.5B | 32.20 | 24.28 | 0.98 | 0.87 | 3.76 | 3.86 |

主观评估（情感数据集）：如表2所示，UniSS(Q)在情感相似度（4.51）和说话人相似度（4.42）上取得了最佳分数，接近闭源系统Seed LiveInterpret 2.0（情感4.56）。

速度-质量权衡：如表3所示，性能模式相比质量模式有1.07倍的加速，同时Speech-BLEU仅下降1.84点，提供了灵活的效率-质量选择。

消融研究（表4）：证明了三阶段渐进训练的有效性（去除Phase 3性能下降2.06点）、使用GLM-4语言分词器的必要性（去除则性能骤降8.73点）以及CoT框架的重要性（直接S2ST性能暴跌14.40点）。

其他结果：在FLEURS数据集上（表D3），UniSS同样表现出色，证明了其鲁棒性。此外，论文还展示了UniSS在S2TT、ASR和TTS任务上的能力（表D4）。

CVSS-T数据集上的主要性能对比表

此图显示了表1中的主要性能对比数据，直观展示了UniSS在各项指标上的优势。

⚖️ 评分理由

学术质量：6.0/7。论文提出了一个设计巧妙、实验充分的统一框架，其跨模态CoT提示是有效的创新。技术实现正确，实验对比全面，涵盖了客观、主观评估和消融研究，证据可信度高。但其核心架构创新（单一LLM处理多模态）在概念上并非全新，且对自建合成数据集的依赖在一定程度上削弱了无偏比较的说服力。
选题价值：1.5/2。表达式S2ST是语音AI的前沿方向，具有极高的实际应用价值（如实时同声传译、跨语言视频配音）。该工作提出了一种更简单有效的范式，对领域发展有明确的推动作用，与语音/音频领域读者高度相关。
开源与复现加成：0.5/1。论文提供了详细的训练配置、超参数和评估设置。公开了数据集构建流程、模型权重（基于Qwen2.5-1.5B）和演示网站（https://cmots.github.io/uniss-demo/）。然而，论文中未明确提及是否开源完整的训练和推理代码仓库（如GitHub链接），这为完全复现增加了一定障碍，因此给予中等加成。

← 返回 ICLR 2026 论文分析

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文