QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-Enhancement and Conditional Flow Matching

📄 QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-Enhancement and Conditional Flow Matching #语音转换 #跨语言 #零样本 #流匹配 #自监督学习 ✅ 7.5/10 | 前25% | #语音转换 | #流匹配 | #跨语言 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Han-Jie Guo (中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Zhen-Hua Ling (中国科学技术大学,语音及语言信息处理国家工程研究中心) 作者列表:Han-Jie Guo (中国科学技术大学,语音及语言信息处理国家工程研究中心)、Hui-Peng Du (中国科学技术大学,语音及语言信息处理国家工程研究中心)、Shi-Ming Wang (中国科学技术大学,语音及语言信息处理国家工程研究中心)、Xiao-Hang Jiang (中国科学技术大学,语音及语言信息处理国家工程研究中心)、Ying-Ying Gao (中国移动九天人工智能研究院)、Shi-Lei Zhang (中国移动九天人工智能研究院)、Zhen-Hua Ling (中国科学技术大学,语音及语言信息处理国家工程研究中心) 💡 毒舌点评 亮点:论文针对跨语言对齐难这一核心痛点,设计了“全局说话人嵌入”和“扰动内容表示”两阶段查询来增强和对齐帧级说话人表征,思路清晰且有效。短板:实验部分虽然全面,但对说话人相似度(SMOS/SECS)未达最优的原因分析过于表面,且缺乏对生成语音在不同语速、情感等更复杂条件下的鲁棒性讨论,研究深度稍显不足。 📌 核心摘要 问题:现有的零样本跨语言语音转换(XVC)方法面临发音错误、说话人建模不足以及跨语言对齐困难等挑战。 方法核心:提出QE-XVC框架,包含三大组件:利用预训练SSL模型(XLSR-53)提取共享多语言表征;设计查询增强模块,通过两阶段注意力机制(先用说话人嵌入作查询,再用扰动内容作查询)结合小波卷积来精炼帧级说话人表征;采用条件流匹配(CFM) 模型,以内容表征和说话人表征为条件,非自回归地生成转换后的梅尔频谱图。 创新:与已有方法相比,新在:a) 提出两阶段查询增强机制,在跨语言场景下稳定对齐;b) 构建统一的多语言连续表征空间,避免量化损失;c) 采用高效的CFM模型进行生成,速度优于扩散模型。 主要实验结果:在英语到西班牙语的跨语言任务上,QE-XVC相比最佳基线(vec2wav 2.0)在CER上显著降低(2.18% vs 4.86%),在F0-PCC上提升(0.753 vs 0.692),表明发音准确性和韵律保持更好。主观评估(NMOS和SMOS)也表现优异。推理效率(RTF=0.051)远高于扩散基线。 实际意义:该方法为构建低资源语言语音数据集、影视配音等应用提供了更高质量、更高效的零样本跨语言语音转换解决方案。 主要局限性:说话人相似度(SECS和SMOS)略低于使用离散token的vec2wav 2.0,论文对此分析不足;未探讨在更复杂声学环境或非平稳语音下的性能。 🏗️ 模型架构 QE-XVC的整体架构如图1所示,主要分为三个模块: ...

2026-04-29

SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing

📄 SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing #语音情感识别 #对比学习 #预训练 #零样本 #跨语言 ✅ 6.5/10 | 前50% | #语音情感识别 | #对比学习 | #预训练 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Xin Jing(CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany) 通讯作者:未明确标注 作者列表: Xin Jing(CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany) Jiadong Wang(CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany) Andreas Triantafyllopoulos(CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany) Maurice Gerczuk(CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany) Shahin Amiriparian(† Huawei, Netherlands, ⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany) Jun Luo(† Huawei, Netherlands) Björn Schuller(⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany; ‡ GLAM, Imperial College London, UK) 💡 毒舌点评 论文的亮点在于精准地指出了标准对比学习在情感建模上的“非黑即白”硬伤,并用模态内相似性构建软目标加以缓解,这是一个优雅且有效的工程改良。然而,短板在于其“安全牌”打法:仅在英语数据上训练,却大谈跨语言迁移,说服力有限;且在部分关键数据集(如RAVDESS)上,相比基线提升微弱甚至下降,使得“显著优于”的结论有些底气不足。 ...

2026-04-29