FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec

📄 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec #语音转换 #扩散模型 #零样本 #语音编解码器 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yurii Halychanskyi(University of Illinois Urbana-Champaign, The Grainger College of Engineering, Siebel School of Computing and Data Science) 通讯作者:未说明 作者列表:Yurii Halychanskyi(UIUC)、Cameron Churchwell(UIUC)、Yutong Wen(UIUC)、Volodymyr Kindratenko(UIUC) 💡 毒舌点评 亮点在于巧妙地将扩散模型的噪声控制机制转化为口音强度的“旋钮”,首次实现了在口音转换中对“转多少”的显式、平滑控制,这对实际应用非常友好。短板是训练数据“作弊”——只用了美式英语单说话人(LJSpeech),这好比只学会了标准答案却没练习过如何修改各地“方言”作业,其面对真正多样化非母语口音时的泛化能力和适应性存疑,而论文对此缺乏深入验证。 📌 核心摘要 问题:现有的口音转换方法缺乏对转换强度的显式控制,难以在“更地道”和“更像本人”之间灵活权衡。 方法核心:提出FAC-FACodec框架,利用FACodec将语音解耦,仅对内容(发音)潜变量zc1进行建模。在训练时,模型学习从加噪的zc1中恢复出美式英语的先验分布。在推理时,通过选择初始加噪的时间步t_start来控制转换强度:t_start越大,表示从越“混乱”的状态开始去噪,结果越偏向先验(美式发音),但可能丢失更多原始特征。 创新点:这是首个提供用户可控参数来调节口音转换强度的框架;仅需目标口音(美式英语)的语音和转录文本进行训练,实现零样本转换;专注于发音层面的修改,严格保留说话人的韵律和音色。 主要实验结果:在L2-Arctic数据集(6种非母语口音)上测试,随着t_start从25增至100,美式口音分类器得分(Acc)从72.22平均提升至89.86,而说话人相似度(SS)从0.97降至0.88,词错误率(WER)从0.07升至0.15,证明了转换强度与身份保留之间的可控权衡。与基线系统相比,在 t_start=100时,本方法在说话人相似度和WER上持平或更优,但在口音得分上通常低于同时重构韵律的系统。 关键数据表(节选): ...

2026-04-29