非自回归 | 语音/音乐/音频论文速递

📄 CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data #语音转换 #流匹配 #语音合成 #数据增强 #非自回归 ✅ 7.8/10 | 前25% | #语音转换 | #流匹配 | #语音合成 #数据增强学术质量 7.8/7 | 选题价值 7.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Qibing Bai（香港中文大学（深圳）数据科学学院、腾讯天籁音频实验室）通讯作者：Shuai Wang（南京大学智能科学与技术学院，标注†）作者列表：Qibing Bai（香港中文大学（深圳）数据科学学院、腾讯天籁音频实验室）、Shuhao Shi（香港中文大学（深圳）数据科学学院）、Shuai Wang（南京大学智能科学与技术学院）、Yukai Ju（腾讯天籁音频实验室）、Yannan Wang（腾讯天籁音频实验室）、Haizhou Li（香港中文大学（深圳）数据科学学院、深圳市大数据研究院、香港中文大学（深圳）高等金融研究院） 💡 毒舌点评亮点在于“源合成”数据策略的构思巧妙——通过合成非母语语音来使用纯净母语语音作为目标，从根本上规避了TTS伪影污染，这一思路颇具启发性。短板则是其宣称的“无需真实L2数据”在泛化到真实、多样且含噪声的L2语音时可能面临挑战，且模型在说话人相似度上略逊于基线。 🔗 开源详情代码：提供了GitHub代码仓库链接：https://github.com/P1ping/CosyAccent。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中描述了使用LibriTTS-R和L2-ARCTIC构建合成数据集的方法，但未明确说明是否公开最终的合成数据集。 Demo：提供了在线演示链接：https://p1ping.github.io/CosyAccent-Demo。复现材料：论文详细描述了模型架构、数据构建流水线、关键训练技术（CTC损失、位置缩放、CFG）。但未提供训练的具体超参数（如学习率、Batch size）、训练硬件信息和检查点。论文中引用的开源项目： CosyVoice2 [19]：用于合成L2语音的提示式TTS模型。 Whisper [27]：用作冻结的语音编码器前端。 Resemblyzer：用于提取说话人嵌入。 HiFTNet [34]：用作声码器。其他基准模型代码：FramAN [13], TokAN [18]。论文中未提及开源计划的其他方面：如合成数据集权重。 📌 核心摘要这篇论文针对口音归一化（AN）中训练数据稀缺和时长建模生硬两大挑战，提出了一种新的解决方案。核心方法包括：1）提出“源合成”训练数据构建策略，使用强大的提示式TTS（CosyVoice2）从大规模母语语料中合成非母语语音，从而在完全不使用真实L2数据的情况下，构建以高质量母语语音为目标的平行训练对。2）提出了CosyAccent模型，一个基于流匹配的非自回归（NAR）系统，它通过隐式韵律建模保证自然度，并引入“位置缩放”技术实现对输出总时长的显式控制。实验结果显示，尽管未使用真实L2数据训练，CosyAccent在内容保持（WER降至12.96% vs. 基线16.21%）和自然度（主观NAT评分64.62）上显著优于使用真实数据的基线模型。该工作证明了合成数据策略的有效性，为减少对稀缺口音数据的依赖提供了新途径。其主要局限性在于合成数据可能缺乏真实L2语音的声学复杂性和副语言特征。 ...