Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis

📄 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis #语音克隆 #语音合成 #流匹配 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言 学术质量 7.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qingyu Liu(上海交通大学 X-LANCE Lab / 约翰斯·霍普金斯大学) 通讯作者:Xie Chen(上海交通大学 X-LANCE Lab / 上海创新研究院)†(论文中明确标注为通讯作者) 作者列表:Qingyu Liu(上海交通大学、约翰斯·霍普金斯大学)、Yushen Chen(上海交通大学、上海创新研究院)、Zhikang Niu(上海交通大学、上海创新研究院)、Chunhui Wang(吉利)、Yunting Yang(吉利)、Bowen Zhang(吉利)、Jian Zhao(吉利)、Pengcheng Zhu(吉利)、Kai Yu(上海交通大学)、Xie Chen(上海交通大学、上海创新研究院) 💡 毒舌点评 亮点:论文精准地找到了flow-matching TTS在跨语言场景下的痛点——对音频提示转录文本的依赖,并通过引入多粒度说话率预测器给出了一个工程上优雅的解决方案。短板:说话率预测器本身只在中文和英文数据上训练,却要声称对德、法、印地、韩等“未见语言”有效,这一结论的支撑略显单薄;此外,去除转录文本后“细粒度说话人特征(如口音、情感)”的迁移能力下降,在论文中被轻描淡写为“未来工作”,但这恰恰是克隆质量的要害。 📌 核心摘要 问题:现有的基于流匹配的文本转语音(TTS)模型在进行跨语言语音克隆时,严重依赖于对音频提示(参考音频)的转录文本,这在目标语言未知或转录不可用时无法实现。 方法核心:提出Cross-Lingual F5-TTS框架。训练时,利用MMS强制对齐工具预处理数据,获取词边界,将音频提示部分及其对应文本完全丢弃,仅用提示音频指导合成剩余被掩码的音频。推理时,为解决缺失文本导致的时长预测难题,训练了音素、音节、词三种粒度的说话率预测器,直接从音频提示的声学特征估算其说话速度,进而结合目标文本的单元数量计算合成时长。 创新点:相比原F5-TTS及同类模型,本文首次在flow-matching TTS框架内实现了无需音频提示转录的跨语言克隆;引入了基于Gaussian Cross-Entropy损失的多粒度说话率预测器作为时长建模的替代方案。 实验结果:在语内测试(LibriSpeech-PC test-clean, SeedTTS test-en/zh)上,该方法在WER和UTMOS等指标上匹配甚至优于原F5-TTS基线(如CL-F5+M1在LibriSpeech-PC test-clean上WER为2.079%,低于基线的2.205%)。在跨语言测试(473个样本,德、法、印地、韩语音提示合成中英文)上,成功实现了克隆,其中M1/M2模型表现良好(如合成英文WER为2.496%),而M3(词级)显著变差(WER达16.494%)。说话率预测器在MRE上表现最佳为M2在中文测试的13.771%。 实际意义:使高质量语音克隆摆脱了对参考音频转录的强依赖,极大扩展了应用场景,尤其是在处理无法转录的罕见语言或实时克隆场景。 局限性:1)说话率预测器在中英文以外语言上的有效性未直接验证,其泛化性存疑。2)去除文本信息后,对说话人细微特征(如口音、情感)的迁移能力下降,论文未提出解决方案。3)跨语言测试集的语言覆盖范围和样本量有限。 🏗️ 模型架构 (图1. Cross-Lingual F5-TTS 训练框架。MMS强制对齐为训练数据生成词边界,左侧片段作为无转录的音频提示,右侧片段的梅尔谱被掩码用于预测) ...

2026-04-29

FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation

📄 FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation #联邦学习 #语音克隆 #语音合成 #低秩适配 #个性化学习 🔥 8.0/10 | 前25% | #语音克隆 | #联邦学习 | #语音合成 #低秩适配 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Qi Wang(鹏城实验室;中国科学院计算技术研究所;中国科学院大学) 通讯作者:未说明 作者列表:Qi Wang(鹏城实验室,中国科学院计算技术研究所,中国科学院大学)、Shituo Ma(中国科学院信息工程研究所,中国科学院大学)、Guoxin Yu(鹏城实验室)、Hanyang Peng(鹏城实验室)、Yue Yu(鹏城实验室) 💡 毒舌点评 亮点: 论文框架设计巧妙,通过解耦“身份(ID-LoRA)”和“风格(Style-LoRA)”,并借鉴协同过滤思想进行个性化聚合,优雅地解决了联邦学习中“隐私保护-通信效率-个性化”三者间的矛盾,是一个完整且实用的系统方案。 短板: 实验部分缺少对最新、最强的端到端语音大模型(如GPT-SoVITS的最新版本或CosyVoice 2的直接微调基线)的深入对比,使得其“显著优于零样本方法”的结论在当前技术背景下略显单薄,也未能充分展示其在更复杂(如跨语言)场景下的泛化能力。 📌 核心摘要 问题: 现有联邦语音克隆(TTS)方法面临两大挑战:高昂的通信开销和对说话人风格异质性的抑制,导致个性化不足。 方法核心: 提出FED-PISA框架。其核心是解耦的LoRA机制:为每个客户端维护一个私有的、冻结的ID-LoRA(捕捉音色),以及一个可全局通信的、轻量的Style-LoRA(捕捉风格)。服务器端采用受协同过滤启发的个性化聚合策略,为每个客户端从风格相似的对等方学习,生成定制化的风格模型。 创新点: 与传统联邦TTS相比,新在:1)首次在联邦语音克隆中实现身份与风格的解耦设计,通过LoRA分离;2)引入个性化聚合算法(基于风格相似度的注意力加权),主动利用而非抑制风格异质性;3)在强大的预训练骨干(GPT-SOVITS-V4)上应用PEFT,显著提升框架的性能上限。 主要实验结果: 在四个公开数据集(ESD, EmoV-DB, RAVDESS, CREMA-D)上进行50轮联邦训练。关键结果见下表。FED-PISA在风格表达性(SE: 0.704)、说话人相似度(SS: 0.645)、自然度(nMOS: 4.08)和正确率(WER: 2.70%)上均优于所有基线,同时通信开销(45.8 GiB)远低于其他联邦方法。 方法 骨干 SE ↑ WER (%) ↓ SS ↑ nMOS ↑ 通信开销 (GiB) ↓ 零样本 (COSYVOICE2) - 0.659 7.20 0.619 3.84 - 本地微调 (LoRA) GPT-SOVITS-V4 0.626 3.35 0.529 3.36 - FedSpeech FASTSPEECH2 0.416 6.82 0.556 3.77 145.28 Fed Dy. Trans. TRANSFORMER-TTS 0.463 8.75 0.602 3.72 456.35 FED-PISA (Ours) GPT-SOVITS-V4 0.704 2.70 0.645 4.08 45.8 实际意义: 为在隐私保护前提下,实现高效、高保真的个性化语音合成提供了一个可行的联邦学习解决方案,有助于推动语音合成技术在边缘设备和隐私敏感场景(如个人设备)中的应用。 主要局限性: 1)框架假设客户端拥有可用于初始化ID-LoRA的中性语料,在纯语音交互或冷启动场景下可能受限;2)个性化聚合的计算开销随客户端数量增长,论文未讨论其可扩展性;3)未在真实的、资源异构的边缘设备集群上评估部署性能。 🏗️ 模型架构 FED-PISA是一个基于联邦学习的语音克隆框架,其整体架构分为客户端和服务器两部分,核心思想是身份-风格解耦。 ...

2026-04-29

ICASSP 2026 - 语音克隆 论文列表

ICASSP 2026 - 语音克隆 共 4 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Dis 9.0分 前10% 🥈 FED-PISA: Federated Voice Cloning Via Personalized Identity- 8.0分 前25% 🥉 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Clonin 7.5分 前25% 4. ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal La 6.5分 前50% 📋 论文详情 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成 ...

2026-04-29

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序注明第一作者) 通讯作者:Chenyang Lyu(标注为) 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业) 💡 毒舌点评 亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。 ...

2026-04-29

PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models

📄 PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models #语音对话系统 #语音大模型 #语音克隆 #零样本 🔥 8.5/10 | 前25% | #语音对话系统 | #语音大模型 | #语音克隆 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Rajarshi Roy (NVIDIA) 通讯作者:未说明 作者列表:Rajarshi Roy (NVIDIA), Jonathan Raiman (NVIDIA), Sang-gil Lee (NVIDIA), Teodor-Dumitru Ene (NVIDIA), Robert Kirby (NVIDIA), Sungwon Kim (NVIDIA), Jaehyeon Kim (NVIDIA), Bryan Catanzaro (NVIDIA) 💡 毒舌点评 亮点:这是首个在全双工语音对话模型中实现实用级零样本语音克隆和细粒度角色控制的开源工作,其提出的Service-Duplex-Bench为评估此类系统提供了更贴近真实应用的标尺。短板:模型的全部能力均基于大规模合成数据训练,虽然实验验证了有效性,但其在复杂、真实世界交互中的泛化能力和“涌现”行为尚待检验;且合成对话是否覆盖了足够多样的真实交互模式,文中未做深入讨论。 ...

2026-04-29

PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion

📄 PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion #语音合成 #语音克隆 #流匹配 #多语言 #零样本 ✅ 7.0/10 | 前50% | #语音合成 | #流匹配 | #语音克隆 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Vikentii Pankov(Rask AI, USA) 通讯作者:未说明 作者列表:Vikentii Pankov(Rask AI, USA)、Artem Gribul(Rask AI, USA)、Oktai Tatanov(Rask AI, USA)、Vladislav Proskurov(Rask AI, USA)、Yuliya Korotkova(École Polytechnique, France)、Darima Mylzenova(TBC Bank, Uzbekistan)、Dmitrii Vypirailenko(Rask AI, USA) 💡 毒舌点评 亮点:将“稳定性”和“自然性”这对矛盾通过一个优雅的推理时融合策略(α(t)调度)进行调和,是解决Flow-Matching TTS痛点的务实且有效的工程创新。短板:实验中声称使用的部分开源基线(如ChatterBox)训练数据规模远大于本文,这种“田忌赛马”式的对比,虽凸显了方法效率,但也可能掩盖了数据量对上限的决定性影响,结论的泛化性需打个问号。 ...

2026-04-29

RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack

📄 RoCo: Robust Code for Fast and Effective Proactive Defense against Voice Cloning Attack #音频安全 #对抗样本 #语音克隆 #语音合成 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音克隆 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Seungmin Kim(松石大学, Soongsil University) 通讯作者:Daeseon Choi(松石大学, Soongsil University, sunchoi@ssu.ac.kr) 作者列表:Seungmin Kim(松石大学)、Dain Kim(松石大学)、Sohee Park(松石大学)、Daeseon Choi(松石大学)。论文指出Seungmin Kim和Dain Kim为共同第一作者。 💡 毒舌点评 RoCo巧妙地将主动防御的“战场”从脆弱的波形域转移到结构更稳定的编解码器潜在空间,并利用STE优雅地解决了离散优化问题,这是一个在架构层面令人耳目一新的设计。然而,该防御策略本质上是针对特定语音合成管线的“寄生式”扰动,其长期有效性高度依赖于攻击模型编解码器的结构稳定性,一旦遇到更强的自适应净化攻击或完全不同的合成架构,其鲁棒性承诺就可能大打折扣。 📌 核心摘要 本文提出RoCo,一种基于神经音频编解码器(Neural Codec)的主动防御方法,旨在解决语音克隆攻击。该方法面临两大核心问题:1)现有防御注入的扰动易被语音增强技术去除;2)生成防御语音的速度过慢,不实用。RoCo的核心方法是:不在原始音频上直接添加扰动,而是在编解码器提取的离散潜在码序列后,额外追加一个专门优化的扰动码(Perturbation Code)。该扰动码使用直通估计器(STE)进行梯度优化,以干扰攻击模型中的说话人编码器。为平衡防御强度和音质,RoCo采用两阶段损失优化策略:先优化目标损失(Target Loss)以最大化防御效果,当扰动码强度达到阈值后,切换为信噪比损失(SNR Loss)以修复音质。与AntiFake、AttackVC、VoiceGuard等基线方法相比,RoCo在多个攻击模型(SV2TTS, YourTTS, AVC)和验证模型(ECAPA, ResNet, RSZ)上取得了更高的防御成功率(DSR)。更重要的是,经语音增强(如Spectral Masking, DeepFilterNet, MP-SENet)后,RoCo的DSR平均下降约15%,而基线方法平均下降约38%,表现出更强的鲁棒性。同时,RoCo生成防御语音的速度显著快于基线(例如在AVC模型上仅需13秒,而基线需要40-122秒)。该工作的实际意义在于提供了一种更快速、更抗干扰的语音隐私主动保护方案。其主要局限在于:方法的防御效果依赖于目标攻击模型采用的特定编解码器架构;论文未评估面对自适应净化攻击或更强大攻击模型时的性能。 ...

2026-04-29

VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings

📄 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings #语音克隆 #零样本 #语音合成 #流匹配 #音频安全 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Bharath Krishnamurthy (北德克萨斯大学) 通讯作者:Ajita Rattani (北德克萨斯大学) 作者列表:Bharath Krishnamurthy (北德克萨斯大学), Ajita Rattani (北德克萨斯大学) 💡 毒舌点评 这篇论文堪称生物识别安全领域的一声警钟,它用优雅的技术(解纠缠表示学习)和极低的成本(5秒音频),制造出了一个足以让现有语音验证系统头疼不已的“合成身份”。其亮点在于将看似复杂的攻击变得异常简单高效;短板则是,这种“降维打击”式的技术突破,也立刻暴露了当前ASV系统在应对此类高级、细粒度伪造时的脆弱性,给防御方带来了前所未有的压力。 📌 核心摘要 解决的问题:现有的语音身份变形(VIM)攻击方法存在严重缺陷:计算成本高、不可扩展(需要为每对说话人微调)、依赖声学相似的说话人对,且生成语音质量低。这些限制了其作为实际威胁的可行性。 方法核心:提出VoxMorph,一个零样本框架。其核心是将声音解纠缠为韵律嵌入(说话风格)和音色嵌入(核心身份)。对两个说话人的这两种嵌入分别使用球面线性插值进行混合,然后将融合的嵌入输入一个三阶段合成管线:自回归语言模型生成声学令牌(由融合韵律引导),条件流匹配网络生成梅尔频谱图(由融合音色引导),最后神经声码器生成波形。 与已有方法相比新在哪里:a) 零样本与可扩展性:仅需5秒音频,无需微调即可生成变形语音。b) 解纠缠表示:将风格与身份分离,可独立精细控制,避免了传统单一嵌入混合产生的声学伪影。c) 先进合成架构:利用自回归模型和流匹配模型的强大生成能力,确保了高保真度。d) 首个大规模数据集:发布包含10,000个样本的数据集用于防御研究。 主要实验结果:在严格安全阈值(0.01% FAR)下,VoxMorph-v2实现了67.8%的完全匹配变形成功率(FMMPMR),比之前最优方法(ViM的2.61%)高出数十倍。音频质量(FAD)比基线提升2.6倍,可理解性错误(WER)降低73%。详细对比见下表: 方法 FAD↓ (vs Real) WER↓ KLD↓ MMPMR (%) @ 0.01% FMMPMR (%) @ 0.01% MorphFader [16] 8.96 1.84 0.4332 0.0 0.0 Vevo [3] 9.14 0.54 0.1899 82.40 9.00 ViM [14] 7.52 1.06 0.3501 2.61 0.00 VoxMorph-v1 5.03 0.33 0.1404 78.60 60.60 VoxMorph-v2 4.90 0.19 0.1385 99.80 67.80 实际意义:证明了语音变形攻击已从理论走向实用,对自动说话人验证(ASV)系统构成切实、可扩展的安全威胁。同时,通过开源代码、模型和大规模数据集,为社区研究和开发下一代变形攻击检测(MAD)对策提供了关键工具和基准。 主要局限性:a) 攻击属性:该技术本身是一种攻击手段,存在滥用风险。b) 评估局限:评估主要在LibriSpeech数据集上进行,且攻击的是特定ASV系统(Resemblyzer),对真实世界、多场景、多模态ASV系统的威胁程度有待进一步验证。c) 多说话人变形:当前方法聚焦于两两变形,未来可扩展至更多说话人融合。 🏗️ 模型架构 VoxMorph是一个端到端的零样本语音身份变形框架,其整体架构如图1所示,包含提取、插值、合成三个核心阶段。 ...

2026-04-29

VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT

📄 VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT #语音克隆 #视频生成 #多模态模型 #扩散模型 ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #语音克隆 #多模态模型 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yali Cai(国防科技大学计算机学院) 通讯作者:Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 作者列表:Yali Cai, Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 💡 毒舌点评 亮点:论文将语音克隆、多模态融合和视频扩散模型(V-DiT)整合成一个端到端框架,并创新性地为T2S模块引入帧级时间锚点以改善音视频同步,整体技术路线清晰。 短板:T2S模块中“动态节奏控制”的具体机制(公式f(S, Θ))描述过于模糊,核心创新点之一缺乏技术细节支撑;实验部分的对比方法(如表3)更新不够及时,且部分指标(如多样性Diver)在所有方法中几乎无差异,难以证明其优越性。 📌 核心摘要 这篇论文旨在解决文本驱动会说话头部生成(THG)中存在的唇部同步不准确和面部表情多样性有限的问题。方法核心是提出一个多模态融合框架VT-Heads,它包含三个关键部分:1)一个带有帧级时间锚点和动态节奏控制的T2S模块,用于生成与视频帧节奏同步的语音;2)一个基于注意力的多模态融合模块,用于细粒度融合文本和语音特征;3)一个以条件V-DiT为骨干的扩散模型,将视频生成建模为时序迭代去噪过程。与现有两阶段方法(先T2S再驱动视频)不同,VT-Heads通过多模态融合增强了文本语义与视觉生成的关联。实验表明,在HDTF数据集和YouTube视频上,VT-Heads在图像质量(FID↓10.12)、唇形同步(Sync↑5.99/6.21)等指标上优于部分基线。其实际意义在于为文本驱动的数字人内容生成提供了一种更同步、更自然的方案。主要局限性在于T2S模块的技术细节不够透明,且与最新SOTA方法的对比有待加强。 🏗️ 模型架构 VT-Heads的整体架构是一个条件扩散模型框架,其输入为驱动文本、参考语音和参考图像,输出为生成的会说话头部视频序列。核心流程如下(参考图1): 输入处理: 文本(T):送入T2S模块合成语音,并通过Word2Vec提取文本特征。 参考语音(Xr):送入T2S模块作为音色参考,并通过Wav2Vec提取语音特征。 参考图像(yr):通过编码器Er提取外观条件r的一部分。 运动帧(ym):可能来自参考视频或生成的中间帧,与参考图像特征共同构成外观条件r = Er(yr) ⊕ Er(ym)。 T2S模块:生成与帧同步的语音波形,其语音特征S’作为多模态融合的输入之一。 多模态融合模块(图2): 文本特征和语音特征分别经LSTM提取时序信息。 通过一个交叉注意力Transformer进行融合,文本作为Query,语音作为Key/Value,学习跨模态关联,输出融合特征。 融合特征f与经ConvNet Ek提取的面部关键点特征Ey(yr)相加,形成最终的时间条件m = Ey(yr) ⊕ f。 V-DiT骨干网络: 接收三部分输入:噪声图像块(Pi)、外观条件r、时间条件m。所有输入被线性投影为1D token。 通过L个Transformer块进行迭代去噪。每个块包含时间注意力(同一空间位置跨帧交互)和空间注意力(同一帧内不同位置交互)两个核心操作(公式2),建模时空依赖。 输出预测的噪声。 输出:经多步去噪后,由VAE解码器将潜在空间的视频帧解码为最终的高清视频。 关键设计选择:采用V-DiT(Video Diffusion Transformer)而非传统的UNet,旨在更好地建模视频的长程时空依赖性。 ...

2026-04-29

ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal Large Language Models

📄 ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal Large Language Models #语音克隆 #多模态模型 #零样本 #强化学习 #语音合成 ✅ 6.5/10 | 前50% | #语音克隆 | #多模态模型 | #零样本 #强化学习 学术质量 5.8/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yanling Zhang(昆明理工大学) 通讯作者:Shengxiang Gao(昆明理工大学) 作者列表:Yanling Zhang(昆明理工大学,云南人工智能重点实验室)、Linqing Wang(昆明理工大学,云南人工智能重点实验室)、Shengxiang Gao(昆明理工大学,云南人工智能重点实验室) 💡 毒舌点评 亮点:论文最大的亮点在于将“情感规划”这个抽象任务显式地交给一个经过微调的大语言模型来完成,这个思路比传统基于规则或回归的方法更灵活,也更契合当前LLM赋能各任务的潮流。短板:论文在最关键的“如何做到零样本”和“LLM具体如何规划韵律”这两个核心问题上,细节描述过于粗疏,比如对“融合”操作(公式1)和“情绪调制”函数(公式4)的实现一笔带过,给人的感觉是框架大于细节,实验数据漂亮但“黑盒”感较强。 📌 核心摘要 要解决的问题:现有的视觉语音克隆(V2C)方法大多依赖于配对的音频-视觉数据,缺乏零样本能力,这限制了其在资源受限环境(如无配对数据)下的可扩展性。 方法核心:提出一个零样本V2C框架,集成文本、静音视频、参考音频和用户情感标签作为输入。其核心创新是一个基于预训练大语言模型(Qwen)的情感韵律规划器,它能根据多模态融合特征生成连续的韵律轨迹(如音高、语速、停顿)。 与已有方法相比新在哪里:主要区别在于引入了LLM作为多模态信息整合与情感韵律规划的中心模块,并实现了无需配对音频数据的零样本推理。相比于V2C-Net、Face-TTS等方法,该框架在数据要求上更灵活。 主要实验结果:在GRID和CHEM两个数据集上,该方法在语音质量(MOS-S)、自然度(MOS-N)和说话人相似度(SPK-SIM)上均显著优于基线方法。例如,在GRID数据集上,MOS-S达到3.94,比最强基线Multi-TTS(3.50)高0.44;SPK-SIM达到71.52,远高于其他方法。消融实验证明,移除视觉输入、情感控制、强化学习或LLM规划器都会导致性能明显下降。 实际意义:为电影配音、语音修复、交互媒体等需要情感化语音合成但缺乏配对训练数据的场景,提供了一种可扩展的解决方案。 主要局限性:实验仅在两个相对小规模和特定领域的数据集(GRID为命令式语音,CHEM为情感语音)上验证,对于更复杂、更自然对话场景的泛化能力未证明。此外,论文未公开代码和模型细节,可复现性存疑。 🏗️ 模型架构 该框架是一个多输入、多模块的端到端系统,旨在生成情感可控的语音。整体流程可概括为:多模态特征提取与融合 -> LLM情感韵律规划 -> 条件概率语音生成 -> 强化学习优化。 输入:静音视频(提供节奏和情感线索)、文本(提供语义内容)、参考音频(提供目标说话人音色)、用户定义的情感及强度。 组件与数据流: 视频编码器:分析视频帧,提取面部表情、唇部运动等视觉特征(V),捕捉情绪和节奏信息。 文本编码器:将输入文本编码为语义嵌入向量(T)。 说话人编码器:从参考音频中提取音色嵌��(A),保留说话人身份信息。 特征融合:三个模态的特征(V, T, A)通过一个融合函数 f_fusion 被整合为统一的特征表示(F)。论文未详细说明此融合函数的具体结构(如注意力、拼接等)。 情感控制网络:用户提供情感类型和强度,由情感专家分类器(EmoBox)引导。这产生一个随时间步变化的情感参数(E_t 或 η_t)。 LLM情感韵律规划器(核心创新):采用微调后的Qwen大语言模型。它接收融合特征(F)和情感参数(E_t),输出韵律轨迹(P_t),包括情感强度、音高偏移、语速、停顿时长等。这一步是动态、细粒度的控制关键。 语音分词器与条件概率生成:根据韵律轨迹(P_t)和文本,以自回归方式(公式3)生成语音token。公式4引入了情绪调制概率,使情感影响语音的生成过程。 强化学习模块:通过最大化奖励函数(R)来优化整个生成过程,奖励(r_t)基于语音自然度、情感表达力、与参考音频的对齐程度等。 架构图:论文提供了两张关键图表。 图1:![Multimodal V2C System Overview](/audio-paper-digest-blog/images/icassp-2026/2026-04-29/11461223-0.png) 此图清晰地展示了系统的三大块:(a) 系统架构,包含LLM规划器、视频编码器、文本编码器、情感控制网络和语音分词器;(b) 情感控制机制,展示了用户如何选择情感并调整强度;(c) 静音视频特征提取细节,显示了视频编码器如何利用多头注意力对齐韵律与视觉线索。 图2:![MFCC comparison of timbres](/audio-paper-digest-blog/images/icassp-2026/2026-04-29/11461223-1.png) 此图对比了用户原始音色、本文方法生成音色和基线生成音色的MFCC图,直观地展示了该方法在保持音色(SPK-SIM)方面的优势。 设计选择动机:选择LLM作为规划器,是因其强大的序列建模和上下文理解能力,有望更好地捕捉韵律与情感、文本之间的长程依赖关系,克服传统规则或简单回归模型的局限。 💡 核心创新点 基于LLM的情感韵律规划器:是什么:使用微调的大语言模型(Qwen)作为核心,根据多模态输入生成连续的、细粒度的韵律控制参数。之前局限:传统方法多采用基于规则或轻量级神经网络(如Variance Adaptor)的规划器,其建模复杂情感-韵律交互的能力有限。如何起作用:LLM能利用其从海量数据中学到的丰富序列知识,更好地理解“在何种情感和视觉情境下,应该采用何种韵律”这一复杂映射。收益:消融实验表明,用LLM替代规则或方差适配器规划器,在所有指标上都取得了提升,尤其在情感一致性和自然度上优势明显。 零样本视觉语音克隆框架:是什么:一个无需配对音视频数据即可进行视觉语音克隆的完整框架。之前局限:现有V2C方法(如V2C-Net, HPMDubbing)严重依赖大规模、高质量的配对数据进行训练,限制了其应用场景和扩展性。如何起作用:通过分离音色(来自参考音频)和情感/韵律(来自视觉和文本)的建模路径,并利用迁移学习(预训练LLM和编码器),使得模型能够泛化到未见过的说话人。收益:实验证明该方法在“使用未见过的说话人作为参考音频”设置下仍表现优异,使其适用于电影配音等现实场景。 显式、连续的情感控制机制:是什么:允许用户通过选择情感类型和调节强度(e和λ)来精确控制生成语音的情感表达。之前局限:许多方法的情感控制是隐式或离散的(仅限预定义类别),控制粒度粗糙。如何起作用:情感参数(E_t)作为关键输入,被送入LLM规划器,直接影响韵律轨迹的生成。收益:提供了灵活、可调的情感表达能力,增强了实用性。 🔬 细节详述 训练数据:使用了两个数据集:GRID(提供同步音视频,用于学习视觉-音频关系)和CHEM(带有情感标签的语音数据)。论文未提供具体的数据集规模、预处理步骤或数据增强方法。 损失函数:论文未明确说明训练时使用的主要损失函数(如重建损失、KL散度等)。仅提及通过强化学习优化一个包含自然度、表达力、对齐度等的综合奖励函数(公式5)。 训练策略:优化器为Adam,初始学习率1e-4,每10,000步衰减0.9。采用了基于验证集损失的早停法。未说明batch size、训练总步数/轮数、warmup策略等。 关键超参数:论文未提供模型的具体规模参数,如LLM的层数、隐藏维度、各编码器的参数量等。 训练硬件:在6块NVIDIA RTX 4090 GPU集群上训练。未提供训练时长。 推理细节:采用自回归方式生成语音token(公式3)。未提及具体的解码策略(如温度、beam search大小)、是否支持流式输出等。 正则化技巧:仅提到了早停法,未提及其他正则化方法(如Dropout、权重衰减的具体设置)。 📊 实验结果 论文在两个数据集上进行了充分的对比实验和消融研究。 ...

2026-04-29