FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec
📄 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec #语音转换 #扩散模型 #零样本 #语音编解码器 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yurii Halychanskyi(University of Illinois Urbana-Champaign, The Grainger College of Engineering, Siebel School of Computing and Data Science) 通讯作者:未说明 作者列表:Yurii Halychanskyi(UIUC)、Cameron Churchwell(UIUC)、Yutong Wen(UIUC)、Volodymyr Kindratenko(UIUC) 💡 毒舌点评 亮点在于巧妙地将扩散模型的噪声控制机制转化为口音强度的“旋钮”,首次实现了在口音转换中对“转多少”的显式、平滑控制,这对实际应用非常友好。短板是训练数据“作弊”——只用了美式英语单说话人(LJSpeech),这好比只学会了标准答案却没练习过如何修改各地“方言”作业,其面对真正多样化非母语口音时的泛化能力和适应性存疑,而论文对此缺乏深入验证。 🔗 开源详情 代码:提供代码仓库链接:https://claussss.github.io/accent_control_demo/ 模型权重:论文中未提及是否公开预训练模型权重。 数据集:训练集LJSpeech和评测集L2-Arctic均为公开数据集,论文中给出了使用方式。 Demo:论文提供的网站链接即为Demo页面(同上)。 复现材料:提供了完整的训练细节(优化器、学习率、批大小、epoch数、硬件)、模型架构细节、预处理流程(文本归一化、音素转换、对齐工具),以及关键超参数(网络尺寸、噪声调度、推理步数)。 引用的开源项目:Nvidia NeMo文本归一化、Phonemizer、Wav2Vec2 XLSR(对齐)、FACodec、Whisper(评测)、SpeechBrain/WavLM(说话人相似度评测)。 📌 核心摘要 问题:现有的口音转换方法缺乏对转换强度的显式控制,难以在“更地道”和“更像本人”之间灵活权衡。 方法核心:提出FAC-FACodec框架,利用FACodec将语音解耦,仅对内容(发音)潜变量zc1进行建模。在训练时,模型学习从加噪的zc1中恢复出美式英语的先验分布。在推理时,通过选择初始加噪的时间步t_start来控制转换强度:t_start越大,表示从越“混乱”的状态开始去噪,结果越偏向先验(美式发音),但可能丢失更多原始特征。 创新点:这是首个提供用户可控参数来调节口音转换强度的框架;仅需目标口音(美式英语)的语音和转录文本进行训练,实现零样本转换;专注于发音层面的修改,严格保留说话人的韵律和音色。 主要实验结果:在L2-Arctic数据集(6种非母语口音)上测试,随着t_start从25增至100,美式口音分类器得分(Acc)从72.22平均提升至89.86,而说话人相似度(SS)从0.97降至0.88,词错误率(WER)从0.07升至0.15,证明了转换强度与身份保留之间的可控权衡。与基线系统相比,在 t_start=100时,本方法在说话人相似度和WER上持平或更优,但在口音得分上通常低于同时重构韵律的系统。 关键数据表(节选): ...