VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings
📄 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings #语音克隆 #零样本 #语音合成 #流匹配 #音频安全 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Bharath Krishnamurthy (北德克萨斯大学) 通讯作者:Ajita Rattani (北德克萨斯大学) 作者列表:Bharath Krishnamurthy (北德克萨斯大学), Ajita Rattani (北德克萨斯大学) 💡 毒舌点评 这篇论文堪称生物识别安全领域的一声警钟,它用优雅的技术(解纠缠表示学习)和极低的成本(5秒音频),制造出了一个足以让现有语音验证系统头疼不已的“合成身份”。其亮点在于将看似复杂的攻击变得异常简单高效;短板则是,这种“降维打击”式的技术突破,也立刻暴露了当前ASV系统在应对此类高级、细粒度伪造时的脆弱性,给防御方带来了前所未有的压力。 📌 核心摘要 解决的问题:现有的语音身份变形(VIM)攻击方法存在严重缺陷:计算成本高、不可扩展(需要为每对说话人微调)、依赖声学相似的说话人对,且生成语音质量低。这些限制了其作为实际威胁的可行性。 方法核心:提出VoxMorph,一个零样本框架。其核心是将声音解纠缠为韵律嵌入(说话风格)和音色嵌入(核心身份)。对两个说话人的这两种嵌入分别使用球面线性插值进行混合,然后将融合的嵌入输入一个三阶段合成管线:自回归语言模型生成声学令牌(由融合韵律引导),条件流匹配网络生成梅尔频谱图(由融合音色引导),最后神经声码器生成波形。 与已有方法相比新在哪里:a) 零样本与可扩展性:仅需5秒音频,无需微调即可生成变形语音。b) 解纠缠表示:将风格与身份分离,可独立精细控制,避免了传统单一嵌入混合产生的声学伪影。c) 先进合成架构:利用自回归模型和流匹配模型的强大生成能力,确保了高保真度。d) 首个大规模数据集:发布包含10,000个样本的数据集用于防御研究。 主要实验结果:在严格安全阈值(0.01% FAR)下,VoxMorph-v2实现了67.8%的完全匹配变形成功率(FMMPMR),比之前最优方法(ViM的2.61%)高出数十倍。音频质量(FAD)比基线提升2.6倍,可理解性错误(WER)降低73%。详细对比见下表: 方法 FAD↓ (vs Real) WER↓ KLD↓ MMPMR (%) @ 0.01% FMMPMR (%) @ 0.01% MorphFader [16] 8.96 1.84 0.4332 0.0 0.0 Vevo [3] 9.14 0.54 0.1899 82.40 9.00 ViM [14] 7.52 1.06 0.3501 2.61 0.00 VoxMorph-v1 5.03 0.33 0.1404 78.60 60.60 VoxMorph-v2 4.90 0.19 0.1385 99.80 67.80 实际意义:证明了语音变形攻击已从理论走向实用,对自动说话人验证(ASV)系统构成切实、可扩展的安全威胁。同时,通过开源代码、模型和大规模数据集,为社区研究和开发下一代变形攻击检测(MAD)对策提供了关键工具和基准。 主要局限性:a) 攻击属性:该技术本身是一种攻击手段,存在滥用风险。b) 评估局限:评估主要在LibriSpeech数据集上进行,且攻击的是特定ASV系统(Resemblyzer),对真实世界、多场景、多模态ASV系统的威胁程度有待进一步验证。c) 多说话人变形:当前方法聚焦于两两变形,未来可扩展至更多说话人融合。 🏗️ 模型架构 VoxMorph是一个端到端的零样本语音身份变形框架,其整体架构如图1所示,包含提取、插值、合成三个核心阶段。 ...