UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice
📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #大语言模型 #语音合成 #端到端 #多语言 🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sitong Cheng(香港科技大学) 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学) 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学)、Wei Xue(香港科技大学) 💡 毒舌点评 该论文的亮点在于其“大道至简”的哲学,用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题,性能数据非常亮眼。然而,其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上,这使得结果的说服力打了些折扣——毕竟,如果给其他SOTA模型同样规模的定制数据,结果差距可能会缩小。此外,其多标记符的复杂分词策略在工程实现和通用性上是否是最优解,也值得商榷。 🔗 开源详情 代码:论文中未提及代码仓库链接。仅提供了演示网站。 模型权重:基于Qwen2.5-1.5B-Instruct,论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。 数据集:UniST数据集已构建,论文提到“公开”(release),但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。 Demo:提供了在线演示网站:https://cmots.github.io/uniss-demo/ 复现材料:在附录B.1中提供了极其详细的训练配置(阶段、数据、学习率、批次大小等),在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分,主要缺省是官方代码仓库。 论文中引用的开源项目:Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。 📌 核心摘要 这篇论文要解决的是表达式语音到语音翻译(S2ST)中的三大挑战:保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型,它基于预训练的Qwen2.5-1.5B-Instruct构建,使用三种语音标记(说话人标记、语言标记、语义标记)来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链(CoT)提示,在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤,从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型,论文还构建了一个大规模、高质量的合成数据集UniST(44.8k小时)。实验结果(主要见表1)表明,在CVSS-T数据集上,UniSS(质量模式)在翻译保真度(Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28)、时长一致性(SLC 0.2: 0.98/0.87)和语音质量(UTMOS: 3.76/3.86)上均显著优于现有的端到端和级联系统。主观评估(表2)也证实其在情感相似度(MOS 4.51)和说话人相似度(4.42)上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语,且其分词器来自不同模型,导致词表膨胀。 ...