CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data

📄 CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data #语音转换 #流匹配 #语音合成 #数据增强 #非自回归 ✅ 7.8/10 | 前25% | #语音转换 | #流匹配 | #语音合成 #数据增强 学术质量 7.8/7 | 选题价值 7.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Qibing Bai(香港中文大学(深圳)数据科学学院、腾讯天籁音频实验室) 通讯作者:Shuai Wang(南京大学智能科学与技术学院,标注†) 作者列表:Qibing Bai(香港中文大学(深圳)数据科学学院、腾讯天籁音频实验室)、Shuhao Shi(香港中文大学(深圳)数据科学学院)、Shuai Wang(南京大学智能科学与技术学院)、Yukai Ju(腾讯天籁音频实验室)、Yannan Wang(腾讯天籁音频实验室)、Haizhou Li(香港中文大学(深圳)数据科学学院、深圳市大数据研究院、香港中文大学(深圳)高等金融研究院) 💡 毒舌点评 亮点在于“源合成”数据策略的构思巧妙——通过合成非母语语音来使用纯净母语语音作为目标,从根本上规避了TTS伪影污染,这一思路颇具启发性。短板则是其宣称的“无需真实L2数据”在泛化到真实、多样且含噪声的L2语音时可能面临挑战,且模型在说话人相似度上略逊于基线。 📌 核心摘要 这篇论文针对口音归一化(AN)中训练数据稀缺和时长建模生硬两大挑战,提出了一种新的解决方案。核心方法包括:1)提出“源合成”训练数据构建策略,使用强大的提示式TTS(CosyVoice2)从大规模母语语料中合成非母语语音,从而在完全不使用真实L2数据的情况下,构建以高质量母语语音为目标的平行训练对。2)提出了CosyAccent模型,一个基于流匹配的非自回归(NAR)系统,它通过隐式韵律建模保证自然度,并引入“位置缩放”技术实现对输出总时长的显式控制。实验结果显示,尽管未使用真实L2数据训练,CosyAccent在内容保持(WER降至12.96% vs. 基线16.21%)和自然度(主观NAT评分64.62)上显著优于使用真实数据的基线模型。该工作证明了合成数据策略的有效性,为减少对稀缺口音数据的依赖提供了新途径。其主要局限性在于合成数据可能缺乏真实L2语音的声学复杂性和副语言特征。 🏗️ 模型架构 CosyAccent是一个非自回归的口音归一化模型,整体架构包含四个核心模块:语音编码器、CTC投影头、时长预测器和语音解码器。 语音编码器与内容表征:输入的L2源语音首先通过一个冻结的Whisper-medium编码器前端提取特征,然后送入一个Transformer语音编码器,提取高层特征。为了确保这些特征能稳健地表示语言内容,编码器输出后接一个线性投影头,并施加CTC损失进行辅助监督。 语音解码器:采用基于DiT(Diffusion Transformer)的解码器,通过流匹配(Flow Matching)训练,生成梅尔频谱的速度场。每个解码器层包含自注意力、交叉注意力和前馈网络(FFN),每个模块后都接有自适应层归一化(AdaLN),其参数由时间嵌入调制。编码器输出的内容表征通过交叉注意力作为内容条件注入解码器。 时长控制机制:这是模型的关键创新。它结合了隐式和显式的时长控制: 隐式韵律建模:解码器本身不严格对齐源和目标的逐帧位置,允许生成更自然的节奏。 显式总时长控制(位置缩放):在交叉注意力中,使用旋转位置编码(RoPE)。与传统绝对索引不同,论文将源内容特征的位置索引进行归一化缩放,使其终点与目标梅尔频谱长度的终点对齐。这种“位置缩放”技术在源和目标之间建立了粗对齐,确保模型在目标长度被手动指定时(如配音场景需保持时长),仍能正确映射语音的开头、中间和结尾。 总时长预测器:为了灵活性,模型引入一个总时长预测器,用于预测一个缩放比例(目标长度/源长度)。该预测器由DiT骨干网络、注意力池化层构成,并通过流匹配训练。在推理时,可以选择使用预测的比例来确定输出长度,或直接继承源语音的时长。 说话人条件:由于冻结的Whisper编码器可能抑制了源语音的音色信息,模型显式地使用预训练说话人编码器(Resemblyzer)提取说话人嵌入向量作为条件,以确保高保真的音色模仿。解码器的输出受三个输入条件化:带噪样本x_t、时间t、内容特征序列c和说话人嵌入向量s。推理时采用双向Classifier-Free Guidance(CFG)来分别控制整体生成过程和对语言内容的遵循程度。 图2展示了CosyAccent的整体架构,包含语音编码器、CTC头、时长预测器和基于流匹配的语音解码器,并显示了通过位置缩放进行时长控制的机制。 ...

2026-04-29