语音克隆 | 语音/音频论文速递

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation #音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型 ✅ 7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Yuheng Chen（上海交通大学）通讯作者：Qingdong He（电子科技大学，论文中标注为对应作者及项目负责人）作者列表：Yuheng Chen（上海交通大学，等同贡献）、Qingdong He（电子科技大学，等同贡献）、Teng Hu（上海交通大学）、Yuji Wang（上海交通大学）、Yabiao Wang（浙江大学）、Lizhuang Ma（上海交通大学）、Jiangning Zhang（浙江大学，对应作者） 💡 毒舌点评这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架，其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效，SA-MRoPE的位置编码设计思路也具启发性。然而，其核心的OCF模块本质上是标准Transformer块对拼接序列的处理，架构创新度有限，且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱，更像是一次成功的系统工程集成而非深度理论探索。 📌 核心摘要本文旨在解决在联合音视频生成中，为多个主体同时保持其视觉身份和声音音色，并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定，以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer，一个端到端框架。其核心方法包括：1) Omni-Context Fusion (OCF) 模块，将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列，通过L层专用Transformer块进行深度跨模态交互，以富化文本表示；2) Semantic-Anchored Multimodal RoPE (SA-MRoPE)，为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码，实现语义锚定；3) Masked TTS Cross-Attention (MTP-CA)，通过二进制掩码机制，确保TTS语音信息仅注入到提示词中被<S>和<E>标签包裹的对话部分，消除“Caption Vocalization”异常。此外，论文提出了交错式模态解耦训练策略（交替进行联合音视频训练和纯音频训练）和渐进式课程学习（从单主体配对到多主体非配对数据），以在不损害基础模型能力的前提下，让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程，并提出了新的评估基准OC-Bench。实验在OC-Bench上进行，结果表明，Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。 ...

Voice ''Cloning'' is Style Transfer

📄 Voice ‘‘Cloning’’ is Style Transfer #语音克隆 #人类实验 #语音质量评估 #数据隐私 #语音合成 ✅ 7/10 | 前25% | #语音克隆 | #人类实验 | #语音质量评估 #数据隐私 | arxiv 学术质量 5.7/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Kaitlyn Zhou (Cornell University, TogetherAI) 通讯作者：未说明作者列表：Kaitlyn Zhou (Cornell University, TogetherAI), Federico Bianchi (TogetherAI), Martijn Bartelds (TogetherAI), Anna Pot (Stanford University), Yongchan Kwon (TogetherAI), James Zou (Cornell University, Stanford University) 💡 毒舌点评这篇论文精准地戳破了“语音克隆”这一商业术语的技术泡沫，通过扎实的人类感知实验与多维度计算分析，雄辩地证明了当前主流克隆系统实为“风格转移与同质化”机器。其社会伦理警示价值显著，揭示了技术背后隐藏的偏见与权力塑造。然而，论证的核心弱点在于将复杂的社会感知变化主要归因于技术“局限性”，而非更根本的训练数据偏见或生成模型固有的归纳偏置，导致对“为何如此”的机制性解释乏力。此外，实验设计在控制“克隆”本身引入的误差（如跨句子生成）方面存在模糊地带，使得“风格转移”的归因不够干净。 📌 核心摘要要解决什么问题：本文旨在实证检验并挑战一个普遍假设——语音克隆技术能忠实复制说话人的声音身份。它系统性地探究了当前零样本语音克隆系统在实际应用中，是保留了说话人的独特特征，还是引入了未被声明的、系统性的修改。方法核心是什么：研究采用“人类感知实验+计算分析”的双重验证框架。首先，收集了86名非英语母语者的语音数据作为源音频。然后，使用三个主流语音克隆模型（ElevenLabs V3, Coqui-XTTS, ChatterBox）通过“跨句子克隆”范式生成克隆音频。核心流程包括：1) 通过大规模人类标注实验（n=177），对源与克隆音频在多个感知维度（如人性化、权威感、信任度）进行成对比较评分；2) 进行计算分析，包括口音分类、说话人识别探针和迭代克隆实验，以量化口音变化、身份可区分性下降及特征漂移方向。与已有方法相比新在哪里：与以往聚焦于克隆语音“保真度”或“误用风险”的研究不同，本文首次将研究焦点从“能否骗过人”转向“克隆过程如何改变了说话人的特质”。它系统性地揭示了语音克隆作为一个过程所带来的、非预期的、方向性的“风格转移”（使声音听起来更权威、温暖、客服化）和“身份同质化”效应（削弱口音和个体特征），并将这些发现与潜在的社会行为影响（如增加信任和信息披露意愿）直接关联。主要实验结果如何：人类标注实验显示，克隆语音在所有感知维度上的评分均显著高于源语音（p<0.05）。计算分析表明：1) 克隆显著降低了说话人识别任务的分类准确率（随机森林从85%降至53%），并增加了错误分布的广度和跨性别误识率；2) 口音分类显示，非英语母语者的克隆语音被大量映射为美式、英式等“内部圈”英语；3) 50轮迭代克隆实验显示，音频嵌入点逐渐收敛，与源音频的余弦相似度持续下降，音高显著上升。实际意义是什么：研究揭示了语音克隆技术一项被忽视的风险：在未经用户明确知情的情况下，系统可能系统性地改变其声音特质，使其听起来更“标准化”、更具说服力或更“本土化”。这可能影响社会感知（如信任度）、加剧文化多样性侵蚀，并对内容标注、用户知情同意和技术透明度政策提出新要求。主要局限性是什么：论文承认仅评估了三个模型；数据集仅包含非英语母语者，可能放大了观察到的同质化效应，结论对母语者的普适性未验证；研究主要揭示了“是什么”（现象），但对于“为什么”（模型内部机制为何产生此特定方向的风格偏移）的深入剖析不足。此外，跨句子克隆范式在控制生成误差方面可能不够完美。 🔗 开源详情代码：https://github.com/kzhou-cloud/voice-cloning-public 模型权重：论文中未提及具体权重下载链接。论文评估了两个开源模型（ChatterBox， Coqui-XTTS）和一个专有模型（ElevenLabs V3），但未提供这些模型预训练权重的直接下载地址。数据集：Voice Cloning Style Transfer Dataset。获取链接：https://huggingface.co/datasets/kzhou/voice_cloning_style_transfer。该数据集包含86位非英语母语者的语音数据，包含源音频和克隆音频对，用于研究目的。附有详细的使用条款和禁止用途（如禁止商业使用、禁止用于生成仇恨言论或合成声音等）。 Demo：论文中未提及。复现材料：实验协议、同意书模板、完整段落文本及任务截图详见论文附录A（§A）。用于口音分类的开源模型为 CommonAccent (Zuluaga-Gomez et al., 2023)。用于音频特征提取的开源库为 librosa (McFee et al., 2015)。用于音频嵌入的模型为 ECAPA-TDNN (Desplanques et al., 2020)。用于情感分类的模型为 NVIDIA’s Audio2Emotion-v3.0 (Chung et al., 2025)。用于音频预处理的强迫对齐工具基于 Whisper (Radford et al., 2023)。论文中引用的开源项目： Whisper (Radford et al., 2023)：用于音频分割的强迫对齐。链接（标准仓库）：https://github.com/openai/whisper CommonAccent (Zuluaga-Gomez et al., 2023)：用于口音分类。链接（标准仓库）：https://github.com/facebookresearch/commonaccent （注：该链接为项目相关仓库，论文原文未提供具体链接） ECAPA-TDNN (Desplanques et al., 2020)：说话人嵌入模型。链接（常用实现）：https://github.com/speechbrain/speechbrain （SpeechBrain框架包含该模型） librosa (McFee et al., 2015)：用于音频特征提取。链接：https://github.com/librosa/librosa NVIDIA’s Audio2Emotion-v3.0 (Chung et al., 2025)：用于情感分类。论文中未提及具体开源链接。 ElevenLabs, ChatterBox, Coqui-XTTS：论文中评估的TTS/语音克隆模型。其中ChatterBox和Coqui-XTTS为开源模型，ElevenLabs为专有模型。论文未提供这些模型的具体权重或独立项目主页链接。 🏗️ 方法概述和架构本论文并非提出一个新的模型架构，而是提出了一种用于剖析和评估现有语音克隆系统行为特性的研究框架。其核心是一个多阶段的实验流程，旨在从人类感知和声学计算两个维度，系统性地量化“语音克隆”这一过程所引入的、非预期的改变。 ...

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

📄 X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning #语音合成 #语音克隆 #流匹配 #多语言 #零样本 🔥 8.0/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Rixi Xu（上海交通大学，MoE Key Lab of Artificial Intelligence, X-LANCE Lab）通讯作者：Xie Chen（上海交通大学，MoE Key Lab of Artificial Intelligence, X-LANCE Lab; 上海创新研究院）作者列表：Rixi Xu（上海交通大学X-LANCE实验室）、Qingyu Liu（上海交通大学X-LANCE实验室; 约翰霍普金斯大学CLSP）、Haitao Li（浙江大学; 北京海天瑞声科技有限公司）、Yushen Chen（上海交通大学X-LANCE实验室; 上海创新研究院）、Zhikang Niu（上海交通大学X-LANCE实验室; 上海创新研究院）、Yunting Yang（吉利汽车研究院(宁波)有限公司）、Jian Zhao（吉利汽车研究院(宁波)有限公司）、Ke Li（北京海天瑞声科技有限公司）、Berrak Sisman（约翰霍普金斯大学CLSP）、Qinyuan Cheng（上海创新研究院; 复旦大学）、Xipeng Qiu（上海创新研究院; 复旦大学）、Kai Yu（上海交通大学）、Xie Chen（上海交通大学X-LANCE实验室; 上海创新研究院）注：论文明确说明第一作者Rixi Xu与通讯作者Xie Chen贡献相当，且Xie Chen为通讯作者。 💡 毒舌点评亮点在于其“两阶段免文本提示”训练范式非常巧妙，利用第一阶段模型生成的数据来训练第二阶段的免文本能力，形成了一个优雅的数据自举闭环，并且全套资源（数据、模型、评测）的开源诚意十足。短板是模型规模（0.4B）限制了其在极端复杂口音或高保真场景下的表现上限，且非流式推理的时延对于实时交互应用可能仍是一个瓶颈。 ...

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #端到端 #多模态模型 #流式处理 #语音克隆 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jingyao Gong（Independent Researcher，独立研究者）通讯作者：未明确说明（论文中仅提供第一作者邮箱 gongjy.cs@foxmail.com，未指明通讯作者）作者列表：Jingyao Gong（Independent Researcher）毛舌点评该论文的亮点在于它将一个完整的“听-看-想-说”全模态闭环在0.1B的小模型规模上实现并彻底开源，包括训练代码、模型权重和处理过的多模态训练数据集，为社区提供了一个可完全复现和修改的小型研究基线。然而，其短板也十分明显：受限于极小的模型规模，在语音自然度、长句稳定性和复杂指令跟随能力上与大模型存在显著差距，其评估也主要集中在内部一致性而非端到端的用户体验，更像一个验证技术可行性的原型而非实用系统。核心摘要问题：旨在探索在极小参数规模（0.1B）下，构建一个能够同时处理文本、语音、图像输入并输出文本与流式语音的端到端全模态模型的可行性与设计范式。方法：采用“思考者-说话者”分离架构。“思考者”是完整的MiniMind语言模型主干，接收文本、经过投影的语音（SenseVoice）和图像（SigLIP2）特征；“说话者”是一个独立的4层MiniMind模块，接收来自思考者中层的语义桥接状态和自回归的Mimi语音编码历史，以预测8层的Mimi码本用于生成流式语音。说话人身份通过参考语音编码和预计算的CAM++嵌入在说话者模块中进行条件化。创新：核心创新在于为小规模全模态模型提出的三项设计选择：(1) 使用中层语义桥接，而非首层或末层状态，为说话者提供更干净的语义条件；(2) 公开了用于训练的多模态序列格式和数据集；(3) 为8个Mimi码本设计了参数高效的共享基础加低秩适配器的嵌入与输出头接口。主要实验结果：一致性：在内部一致性评估中，密集模型和MoE模型在平均字符错误率（CER）上分别为0.0897和0.0900。语音克隆：使用CAM++说话人嵌入进行评估，密集模型和MoE模型的总体语音克隆相似度（余弦相似度）分别为0.5995和0.5937。跨模型对比：在简短英文问答T2A一致性上，0.1B的MiniMind-O（Avg CER: 0.0964， Avg WER: 0.0973）落后于0.5B的Mini-Omni（Avg CER: 0.0101， Avg WER: 0.0185）和Mini-Omni2（Avg CER: 0.0371， Avg WER: 0.0431）。消融实验：说话者模块的隐藏维度从768降至512或384时，CER显著恶化。低秩适配器消融显示输出头的秩比嵌入层的秩更重要。实际意义：提供了一个完全可公开审查和复现的小规模全模态交互系统，降低了该领域的研究门槛。其明确的设计选择（如中层桥接）和完全开源的闭环数据，为分析和改进小模型全模态架构提供了可控的研究对象。主要局限性：语音自然度和长句生成的稳定性不足；视觉通路依赖冻结编码器和固定占位符，能力有限；评估主要关注内部转录一致性，未充分评估自然度、鲁棒性和安全性等。详细分析 01.模型架构 MiniMind-O 是一个端到端的全模态模型，其核心架构遵循“思考者-说话者”分离范式，整体数据流如图1所示。 ...

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者：未明确说明（论文提供了团队邮箱 jts.ai.team@gmail.com）作者列表： Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology，实习于Jasmine Technology Solution) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics) 💡 毒舌点评亮点：论文在泰语语音克隆上实现了SOTA，CER甚至优于人类基准，并在400次盲测中以70%胜率击败商业巨头，展示了强大的工程落地和数据调优能力。短板：模型核心架构源自VoxCPM，原创性有限；更关键的是“代码、模型、数据”三无状态，使得其优异的实验结果暂时停留在“不可复现的宣称”阶段，大大削弱了学术贡献的可验证性和社区价值。 ...

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音克隆 #语音合成 #状态空间模型 #语音大模型 #扩散模型 ✅ 7.5/10 | 前25% | #语音克隆 | #状态空间模型 | #语音合成 #语音大模型学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sahil Kumar（Yeshiva University, Department of Mathematics）通讯作者：Youshan Zhang（Chuzhou University, School of Artificial Intelligence）作者列表：Sahil Kumar（Yeshiva University, Department of Mathematics）、Namrataben Patel（Yeshiva University, Department of Mathematics）、Honggang Wang（Yeshiva University, Department of Computer Science & Engineering）、Youshan Zhang（Chuzhou University, School of Artificial Intelligence） 💡 毒舌点评亮点：架构设计全面且理论动机清晰，通过引入门控双向融合与AdaLN调制，在完全移除推理时注意力的同时，有效提升了长文本的韵律稳定性和跨语言泛化能力，是Mamba在TTS领域一次扎实的工程化探索。短板：尽管声称改进，但核心性能增益（MOS +0.07， RTF -0.0005）绝对值很小，被扩散解码器主导的延迟瓶颈严重掩盖了SSM-only编码器的理论优势，实际部署价值提升有限。 ...

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音频深度伪造检测 #数据集 #多语言 #语音克隆 #音视频 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据集 | #多语言 #语音克隆学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未说明作者列表：Kartik Kuckreja (MBZUAI), Parul Gupta (Monash University), Injy Hamed (MBZUAI), Thamar Solorio (MBZUAI), Muhammad Haris Khan (MBZUAI), Abhinav Dhall (Monash University) 💡 毒舌点评这篇论文精准地抓住了现有深度伪造检测数据集在多语言（尤其是阿拉伯语-英语语码转换）场景下的巨大空白，并提供了一个规模空前的数据集（387k视频），填补了这一重要缺口。然而，其数据生成管道高度依赖多个前沿但复杂的TTS/唇同步模型组合以及GPT-4的文本编辑，虽然保证了多样性，但也使得“伪造”样本的生成过程本身成为一个“黑盒”集成，其质量的上限和下限都极大程度地受限于这些商业/开源模型的能力，而非论文提出的统一框架。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文明确表示将公开数据集，并提供了获取所需的EULA表单（图7）。访问需通过机构IRB批准和签署EULA。 Demo：未提及在线演示。复现材料：论文提供了数据生成管道的详细描述、关键工具（Whisper-v2, GPT-4.1-mini, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync）以及评估脚本的开源承诺。附录中提供了详细的文本操作提示（图6）、数据分布、扰动列表和身份重叠分析等复现相关信息。论文中引用的开源项目：Whisper, wav2vec 2.0, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, XLSR-Mamba, Jais-3B, Qwen2.5等。 📌 核心摘要问题：现有的深度伪造检测研究主要针对单语内容，忽略了全球普遍存在的多语言，特别是阿拉伯语-英语语码转换（CSW）场景下的检测挑战。方法核心：提出了ArEnAV，首个大规模阿拉伯-英语音视频深度伪造数据集，并设计了一个三阶段数据生成流程：利用GPT-4.1-mini进行受控的文本（语码转换）操纵，使用4种TTS和2种唇同步模型组合生成伪造的音频和视频。创新点：数据集首次系统性地包含了句内语码转换、方言变体和纯阿拉伯语内容；生成流程专门针对阿拉伯语-英语混合内容设计；提供了多维度的基准测试，包括与现有单语/多语言数据集的对比、SOTA模型评估及用户研究。主要实验结果：数据集对比：ArEnAV是目前最大的多语言音视频深度伪造数据集（387k视频，765小时），远超PolyGlotFake（15k）和Illusion（1.37M但非重点CSW）。伪造片段更长，检测更难。检测性能：现有SOTA模型（如BA-TFD+）在ArEnAV上性能大幅下降。在测试集上，BA-TFD+（AV-1M预训练）的AP@0.5仅为3.74，而微调后AUC可达79.97%。跨数据集泛化：在DFDC, FF++, CelebDF上表现良好的模型（如Face-X-Ray, LipForensics），在ArEnAV上AUC接近随机猜测（~50%）。用户研究：人类参与者的检测准确率仅为60.00%，定位精度（AP@0.5）仅0.79，证明该任务极具挑战性。85%的失败案例发生在语码转换中的英语单词部分。实际意义：为构建更具鲁棒性、能应对真实世界多语言语码转换场景的深度伪造检测模型提供了关键资源和基准，推动了该领域向全球化、多样化方向发展。主要局限性：生成管道复杂，依赖外部模型（Whisper, GPT-4, TTS，唇同步模型），其质量和特性直接影响数据集质量；“含义+翻译”模式下，LLM有时未能充分改变语义；数据集目前仅限于阿拉伯语和英语。 🏗️ 模型架构本文的主要贡献是数据集而非一个新的检测模型架构。论文的核心是ArEnAV数据生成管道，其架构如图1所示：整个流程分为三个主要阶段： ...

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #流匹配 #低资源 ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #流匹配 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者：未明确说明（论文提供了共同邮箱 jts.ai.team@gmail.com）作者列表： Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution, Chulalongkorn University Department of Linguistics) 💡 毒舌点评 JaiTTS在泰语这一垂直赛道上确实“秀了一把肌肉”，性能数据（如CER低于人类基准）和人类盲测胜率都相当漂亮，证明了其在目标语言上的强大实力。然而，论文对模型“黑箱”的保护可谓严密，除了引用VoxCPM作为骨架，核心训练细节（如参数规模、优化器设置）几乎全部隐去，且没有任何开源复现的迹象，这使得其卓越的性能更像一个无法验证的“展示柜”，而非可供学术共同体推进的“开放工具”。 ...

One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech

📄 One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech #语音克隆 #语音大模型 #知识蒸馏 #多语言 #领域适应 🔥 8.0/10 | 前25% | #语音克隆 | #知识蒸馏 | #语音大模型 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Amanuel Gizachew Abebe（Shaggar Institute of Technology）通讯作者：Yasmin Moslem（Trinity College Dublin）作者列表：Amanuel Gizachew Abebe（Shaggar Institute of Technology）、Yasmin Moslem（Trinity College Dublin） 💡 毒舌点评亮点：论文方法论清晰，提出了一套完整的“多模型集成蒸馏+合成数据+领域特异性PEFT”的流程来应对科学领域多语言语音克隆的数据稀缺问题，实验设计合理，能清晰展示每一步的贡献。短板：核心创新有限，基本是现有技术的组合应用（Best-of-N集成、LoRA微调），且对科学演讲这一特定领域的挑战（如术语发音、韵律）缺乏更深入的技术设计，最终依赖自动化指标评估可能无法完全反映感知质量。 🔗 开源详情代码：提供代码仓库链接：https://github.com/Aman-byte1/multilingual-voice-cloning-training。模型权重：论文提及使用公开的OmniVoice、VoxCPM、Chatterbox等模型作为教师模型或基础模型，但未明确说明其微调后的模型权重是否公开。数据集：论文中使用的ACL 60/60是公开数据集。通过集成蒸馏生成的合成数据集未明确说明是否单独公开。 Demo：论文中未提及在线演示。复现材料：论文提及代码仓库包含数据准备、训练和评估代码，并指出“精确的超参数配置可在代码仓库中找到”。此外，论文正文给出了关键训练配置（400步、A40 GPU、混合精度、余弦学习率、RSLoRA）和推理配置（VAD、文本分块、温度0.8、top-p 0.9），提供了较好的复现基础。引用的开源项目：论文中引用或提及的开源项目/工具包括：OmniVoice， VoxCPM， Chatterbox， Whisper， ECAPA-TDNN， HIGGS tokenizer（未提供链接）。论文中未提及关于最终模型权重、完整训练配置文件、评估脚本的详细开源计划，但现有信息已指向一个可复现的起点。 📌 核心摘要问题：解决科学演讲等专业领域中，保持说话人音色的同时，跨语言（阿拉伯语、中文、法语）生成高可懂度语音的挑战，主要瓶颈在于缺乏高质量、领域适配的训练数据。方法核心： 1) 多模型集成蒸馏：使用三个零样本语音克隆模型（OmniVoice, VoxCPM, Chatterbox）为ACL 60/60学术语料库生成合成语音，并通过一个结合了可懂度（CER）和说话人相似度（SIM）的复合评分（S_comb）选择每个句子的最佳合成样本，构建高质量的微调数据集。2) 每语言LoRA微调：使用上述合成数据集，通过低秩自适应技术，为目标语言（AR, ZH, FR）分别微调基础OmniVoice模型。新意：主要在于将集成蒸馏与领域数据生成相结合，以应对科学领域低资源问题；并验证了为多语言模型训练独立的LoRA模块比单一多语言适配器更能保留语言特定音素特征。主要结果：在IWSLT 2026共享任务的盲测集上，微调后的OmniVoice模型在所有三种语言上均实现了可懂度（WER/CER）的持续提升，同时保持了接近基线的说话人相似度（SIM）。例如，在完整盲测集上，阿拉伯语微调模型CER从0.077降至0.071；法语WER从0.079降至0.076；中文CER从0.200降至0.192。与多个基线模型对比，OmniVoice在说话人相似度上具有显著优势。实际意义：为利用现有基础模型，快速适配专业领域（如科学交流）的多语言语音合成提供了有效、可复现的范式。主要局限：用于微调的合成数据集规模较小（1，404样本）；性能评估主要依赖自动化指标（Whisper， ECAPA-TDNN），可能无法完全反映人耳感知的真实质量和自然度；每语言独立训练适配器增加了系统复杂度。 🏗️ 模型架构论文未提供完整的模型架构图。其系统整体流程可概括如下： ...

Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis

📄 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis #语音克隆 #语音合成 #流匹配 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言学术质量 7.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qingyu Liu（上海交通大学 X-LANCE Lab / 约翰斯·霍普金斯大学）通讯作者：Xie Chen（上海交通大学 X-LANCE Lab / 上海创新研究院）†（论文中明确标注为通讯作者）作者列表：Qingyu Liu（上海交通大学、约翰斯·霍普金斯大学）、Yushen Chen（上海交通大学、上海创新研究院）、Zhikang Niu（上海交通大学、上海创新研究院）、Chunhui Wang（吉利）、Yunting Yang（吉利）、Bowen Zhang（吉利）、Jian Zhao（吉利）、Pengcheng Zhu（吉利）、Kai Yu（上海交通大学）、Xie Chen（上海交通大学、上海创新研究院） 💡 毒舌点评亮点：论文精准地找到了flow-matching TTS在跨语言场景下的痛点——对音频提示转录文本的依赖，并通过引入多粒度说话率预测器给出了一个工程上优雅的解决方案。短板：说话率预测器本身只在中文和英文数据上训练，却要声称对德、法、印地、韩等“未见语言”有效，这一结论的支撑略显单薄；此外，去除转录文本后“细粒度说话人特征（如口音、情感）”的迁移能力下降，在论文中被轻描淡写为“未来工作”，但这恰恰是克隆质量的要害。 🔗 开源详情代码：提供了Demo链接（https://huggingface.co/spaces/chenxie95/Cross-Lingual_F5-TTS_Space）和个人主页示例（https://qingyuliu0521.github.io/Cross_lingual-F5-TTS/）。论文指出Cross-Lingual F5-TTS的代码可通过这些链接访问，暗示已开源。模型权重：基础模型F5-TTS-Base已开源。本文提出的Cross-Lingual F5-TTS模型和说话率预测器的具体权重下载地址论文中未明确提供。数据集：使用了公开数据集Emilia、LibriSpeech、FLEURS。未提供本文特有的测试集（跨语言测试集）的独立下载。 Demo：提供了交互式HuggingFace Spaces Demo。复现材料：提供了详尽的训练配置（模型架构、优化器、学习率、batch size、训练步数）、推理设置（NFE、CFG等）和预处理方法描述，为复现提供了坚实基础。依赖的开源项目：MMS (forced alignment), Vocos (vocoder), Whisper-large-V3 (WER评估), Paraformer-zh (中文WER评估), WavLM (说话人相似度评估), UTMOS (自然度评估)。 📌 核心摘要问题：现有的基于流匹配的文本转语音（TTS）模型在进行跨语言语音克隆时，严重依赖于对音频提示（参考音频）的转录文本，这在目标语言未知或转录不可用时无法实现。方法核心：提出Cross-Lingual F5-TTS框架。训练时，利用MMS强制对齐工具预处理数据，获取词边界，将音频提示部分及其对应文本完全丢弃，仅用提示音频指导合成剩余被掩码的音频。推理时，为解决缺失文本导致的时长预测难题，训练了音素、音节、词三种粒度的说话率预测器，直接从音频提示的声学特征估算其说话速度，进而结合目标文本的单元数量计算合成时长。创新点：相比原F5-TTS及同类模型，本文首次在flow-matching TTS框架内实现了无需音频提示转录的跨语言克隆；引入了基于Gaussian Cross-Entropy损失的多粒度说话率预测器作为时长建模的替代方案。实验结果：在语内测试（LibriSpeech-PC test-clean, SeedTTS test-en/zh）上，该方法在WER和UTMOS等指标上匹配甚至优于原F5-TTS基线（如CL-F5+M1在LibriSpeech-PC test-clean上WER为2.079%，低于基线的2.205%）。在跨语言测试（473个样本，德、法、印地、韩语音提示合成中英文）上，成功实现了克隆，其中M1/M2模型表现良好（如合成英文WER为2.496%），而M3（词级）显著变差（WER达16.494%）。说话率预测器在MRE上表现最佳为M2在中文测试的13.771%。实际意义：使高质量语音克隆摆脱了对参考音频转录的强依赖，极大扩展了应用场景，尤其是在处理无法转录的罕见语言或实时克隆场景。局限性：1）说话率预测器在中英文以外语言上的有效性未直接验证，其泛化性存疑。2）去除文本信息后，对说话人细微特征（如口音、情感）的迁移能力下降，论文未提出解决方案。3）跨语言测试集的语言覆盖范围和样本量有限。 🏗️ 模型架构 (图1. Cross-Lingual F5-TTS 训练框架。MMS强制对齐为训练数据生成词边界，左侧片段作为无转录的音频提示，右侧片段的梅尔谱被掩码用于预测) ...