ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis
📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Aoduo Li (广东工业大学,邮件地址:3123009124@mail2.gdut.edu.cn) 通讯作者:Hongjian Xu (广东工业大学,邮件地址:123457890wasd@gmail.com) 其他作者: Haoran Lv (广东工业大学) Shengmin Li (华南理工大学) Sihao Qin (华南理工大学) 💡 毒舌点评 亮点:巧妙地将14B参数LLM的“角色思考过程”(Chain-of-Thought)蒸馏成一个仅11.8M参数的轻量级“韵律翻译器”,实现了从语义理解到声学控制的跨模态桥接,这个想法非常优雅且实用。槽点:实验严重依赖一个特定的动漫角色数据集,虽然证明了方法在该领域的有效性,但其在通用语音、其他语言或更严肃风格上的泛化能力有待商榷,有点像“在二次元世界里当王者”。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/(论文中提供了链接占位符,实际应指向具体仓库)。 模型权重:已公开。在HuggingFace或其他平台发布了P2P Adapter、参考音频库等组件的预训练模型。 数据集:已公开发布了AnimeTTS-Bench(包含初始3角色版和扩展50角色版),包含音频、标注和角色配置。 在线Demo:论文中提供了在线体验地址的链接占位符。 依赖的开源项目:论文中明确依赖或基于以下开源项目:GPT-SoVITS v4(TTS骨干)、Qwen 2.5 14B(教师LLM)、Sentence-BERT、ECAPA-TDNN、emotion2vec、HiFi-GAN等。 📌 核心摘要 本文针对现有语音合成系统在生成角色驱动、情感丰富的语音时难以同时保持角色身份一致性和情感表达准确性的问题,提出了ATRIE框架。其核心是Persona-Prosody Dual-Track (P2-DT) 架构,将语音生成解耦为静态的音色轨道(通过标量量化保持身份锚点)和动态的韵律轨道(通过分层流匹配生成情感韵律)。关键创新在于一个离线知识蒸馏过程,利用一个大型语言模型(Qwen 2.5 14B)作为教师,通过思维链推理生成包含情感理由和数值化韵律目标(VAD分数等)的监督信号,来训练一个轻量级的P2P适配器。该适配器在推理时无需LLM参与,可高效地将文本和角色描述映射为韵律控制参数,引导GPT-SoVITS v4骨干网络合成语音。实验在自建的AnimeTTS-Bench(50个角色)上进行,ATRIE在角色一致性分数(CCS: 0.86)、情感表达准确率(EEA: 0.84)和跨模态检索平均精度(mAP: 0.75)上均达到SOTA,同时保持了实时推理能力(RTF: 0.18)。局限性包括对参考音频库的依赖、长句情感强度维持的挑战,以及当前评估集中于动漫风格。 🏗️ 模型架构 ATRIE系统是一个两阶段框架(离线蒸馏,在线推理),其核心是P2-DT架构,整体流程如下: 输入:文本T,角色配置P(包含性格描述、说话模式等)。 语义理解与韵律目标生成(离线/教师阶段): 教师Persona-LLM (Qwen 2.5 14B):接收T和P,输出两部分:(a) 思维链理由R:一段解释为何角色会以某种情感说话的文本;(b) 数值化韵律目标p_tgt:一个包含{V, A, D, F0_rel, E_rel}(效价、唤醒度、时长、相对基频、相对能量)的JSON。 CoT到目标的映射:理由R通过冻结的Sentence-BERT编码为768维语义嵌入h_R。 轻量级适配器训练(学生阶段): 学生P2P Adapter (11.8M参数):一个4层Transformer,通过交叉注意力对齐文本语义标记和音素级声学帧。包含4个并行预测头,分别预测韵律标量(F0, E, D, P)。 训练损失:结合了MSE损失(对齐预测韵律p_hat与教师目标p_tgt)和语义对齐损失(对齐适配器中间表示h_adapter与h_R)。此外,引入了对比损失,确保生成的韵律嵌入z_i与目标角色锚点z_p接近,而与其他角色z_j远离,从而学习一个角色判别的韵律空间。 在线推理阶段: 输入:文本T,角色配置P,参考音频库ℛ。 步骤1:P2P Adapter根据T和P预测韵律控制参数C和角色语义嵌入。 步骤2:参考音频选择:根据预测的VAD目标,从库中检索最匹配的参考音频r*。 步骤3:TTS骨干 (GPT-SoVITS v4):以T、r*和韵律参数C为条件,生成语义令牌,再通过声学解码器和HiFi-GAN声码器输出最终波形y。 双轨融合: 音色轨道:从参考音频r*中提取全局音色嵌入z_timbre,并通过标量量化(SQ)稳定化,作为身份锚点。 韵律轨道:P2P Adapter预测的动态韵律流,通过8步流匹配生成。 融合:静态音色和动态韵律在GPT-SoVITS的方差适配器层融合,共同指导声学生成。 关键设计理由: ...