ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal Large Language Models

📄 ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal Large Language Models #语音克隆 #多模态模型 #零样本 #强化学习 #语音合成 ✅ 6.5/10 | 前50% | #语音克隆 | #多模态模型 | #零样本 #强化学习 学术质量 5.8/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yanling Zhang(昆明理工大学) 通讯作者:Shengxiang Gao(昆明理工大学) 作者列表:Yanling Zhang(昆明理工大学,云南人工智能重点实验室)、Linqing Wang(昆明理工大学,云南人工智能重点实验室)、Shengxiang Gao(昆明理工大学,云南人工智能重点实验室) 💡 毒舌点评 亮点:论文最大的亮点在于将“情感规划”这个抽象任务显式地交给一个经过微调的大语言模型来完成,这个思路比传统基于规则或回归的方法更灵活,也更契合当前LLM赋能各任务的潮流。短板:论文在最关键的“如何做到零样本”和“LLM具体如何规划韵律”这两个核心问题上,细节描述过于粗疏,比如对“融合”操作(公式1)和“情绪调制”函数(公式4)的实现一笔带过,给人的感觉是框架大于细节,实验数据漂亮但“黑盒”感较强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了公开数据集GRID和CHEM,但未提供获取方式或预处理脚本。 Demo:未提及在线演示。 复现材料:仅提供了极有限的训练设置(优化器、学习率、硬件),缺乏复现所需的详细配置文件、超参数表、代码或检查点。 论文中引用的开源项目:引用了CosyVoice/CosyVoice2的工作,但未明确说明其开源项目是否被直接使用或作为基础进行构建。 总结:论文中未提及任何开源计划。 📌 核心摘要 要解决的问题:现有的视觉语音克隆(V2C)方法大多依赖于配对的音频-视觉数据,缺乏零样本能力,这限制了其在资源受限环境(如无配对数据)下的可扩展性。 方法核心:提出一个零样本V2C框架,集成文本、静音视频、参考音频和用户情感标签作为输入。其核心创新是一个基于预训练大语言模型(Qwen)的情感韵律规划器,它能根据多模态融合特征生成连续的韵律轨迹(如音高、语速、停顿)。 与已有方法相比新在哪里:主要区别在于引入了LLM作为多模态信息整合与情感韵律规划的中心模块,并实现了无需配对音频数据的零样本推理。相比于V2C-Net、Face-TTS等方法,该框架在数据要求上更灵活。 主要实验结果:在GRID和CHEM两个数据集上,该方法在语音质量(MOS-S)、自然度(MOS-N)和说话人相似度(SPK-SIM)上均显著优于基线方法。例如,在GRID数据集上,MOS-S达到3.94,比最强基线Multi-TTS(3.50)高0.44;SPK-SIM达到71.52,远高于其他方法。消融实验证明,移除视觉输入、情感控制、强化学习或LLM规划器都会导致性能明显下降。 实际意义:为电影配音、语音修复、交互媒体等需要情感化语音合成但缺乏配对训练数据的场景,提供了一种可扩展的解决方案。 主要局限性:实验仅在两个相对小规模和特定领域的数据集(GRID为命令式语音,CHEM为情感语音)上验证,对于更复杂、更自然对话场景的泛化能力未证明。此外,论文未公开代码和模型细节,可复现性存疑。 🏗️ 模型架构 该框架是一个多输入、多模块的端到端系统,旨在生成情感可控的语音。整体流程可概括为:多模态特征提取与融合 -> LLM情感韵律规划 -> 条件概率语音生成 -> 强化学习优化。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 334 words

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

📄 CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing #语音克隆 #扩散模型 #流匹配 #多模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Gaoxiang Cong(推测,因其在作者列表中排首位,且为论文主要工作贡献者) 通讯作者:Qingming Huang(推测,因其为资深作者,且通常通讯作者在最后) 其他作者及机构: Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan:中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)/ 中国科学院大学(University of Chinese Academy of Sciences) Yuankai Qi:复旦大学(Fudan University) Qingming Huang:中国科学院计算技术研究所 / 杭州电子科技大学(Hangzhou Dianzi University) / 麦考瑞大学(Macquarie University) 💡 毒舌点评 亮点:把配音演员“听-看-说”的认知过程拆解成模型的三阶段流水线,这个思路相当优雅,不仅解决了特征早期纠缠的问题,还让复杂的对齐任务变得模块化、可解释。槽点:论文里“认知同步”、“渐进式引导”这类高大上的词汇层出不穷,但核心的JSAR机制本质上还是对比学习+CTC损失的“老三样”,创新包装大于内核突破。另外,号称完全消除外部对齐工具依赖,但训练时却用上了预训练的AV-HuBERT,这算不算一种“隐形”的依赖呢? 🔗 开源详情 代码:论文中明确表示“We will open-source all detailed experimental settings, source code, and pre-trained weights.”(我们将开源所有详细的实验设置、源代码和预训练权重)。但截至分析时,未提供具体的GitHub链接。 模型权重:承诺开源预训练权重。 数据集:实验中使用了Chem, CelebV-Dub, CinePile-Dub数据集。论文未提及是否会开源新的数据集。 在线Demo:论文中未提及。 引用的开源项目:论文中提及并依赖了多个开源工具/模型:AV-HuBERT(用于唇部特征提取和JSAR中的对比目标)、ConvNeXtV2(文本编码器)、Whisper-large-V3(用于计算WER)、Emotion2Vec(用于计算EMOSIM)、WavLM-TDNN(用于计算SPKSIM)。 📌 核心摘要 本文针对电影配音(视觉语音克隆)中音色保真度与唇形同步难以兼得的痛点,提出了一种基于流匹配的认知同步扩散Transformer(CoSyncDiT)框架。该方法受专业配音员认知过程启发,将噪声到语音的生成过程解耦为三个顺序阶段:声学风格适应、细粒度视觉校准和时间感知上下文对齐,从而渐进式地引导生成轨迹,避免了早期多模态特征干扰。为进一步稳定训练并提升对齐精度,作者设计了联合语义与对齐正则化(JSAR)机制,在中间上下文输出上施加帧级对比学习以强化时间一致性,在最终隐藏状态上施加CTC损失以保障语义正确性。在多个标准数据集及具有挑战性的“野外”场景下的实验表明,CoSyncDiT在说话人相似度、发音清晰度、情感相似度和音视频同步等关键指标上均取得了当前最佳性能,尤其在零样本和跨领域设定下展现出卓越的鲁棒性。 ...

2026-04-19 · 更新于 2026-06-12 · 3 min · 482 words