情感方言 | 语音/音乐/音频论文速递

📄 Task Vector in TTS: Toward Emotionally Expressive Dialectal Speech Synthesis #语音合成 #流匹配 #零样本 #低资源 #情感方言 ✅ 7.0/10 | 前50% | #语音合成 | #流匹配 | #零样本 #低资源学术质量 5.8/7 | 选题价值 1.0/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：未说明（作者列表标注“Pengchao Feng1,2∗, Yao Xiao1∗”为共同第一作者）通讯作者：Xie Chen1,2†（上海交通大学X-LANCE实验室）作者列表：Pengchao Feng（1上海交通大学X-LANCE实验室, 2上海创新研究院），Yao Xiao（1上海交通大学X-LANCE实验室），Ziyang Ma（1上海交通大学X-LANCE实验室），Zhikang Niu（1上海交通大学X-LANCE实验室, 2上海创新研究院），Shuai Fan（1上海交通大学X-LANCE实验室），Yao Li（3上海航空电器有限公司），Sheng Wang（1上海交通大学X-LANCE实验室, 3上海航空电器有限公司），Xie Chen（1上海交通大学X-LANCE实验室, 2上海创新研究院） 💡 毒舌点评亮点在于其“分而治之”的策略，通过独立建模再分层整合，巧妙地绕过了缺乏方言情感联合标注数据的难题，并在实验上证明了其优于简单串联或直接合并的基线。短板则是该方法的泛化能力存疑，在对另一个主流TTS框架（CosyVoice）上尝试时效果不佳，暗示其可能过度依赖于特定的F5-TTS架构特性，通用性打了折扣。 🔗 开源详情代码：论文中提供了代码仓库链接（https://the-bird-f.github.io/Expressive-Vectors）。模型权重：未提及公开模型权重。数据集：方言数据集为内部数据，未提及公开获取方式。情感数据集引用了公开的ESD。 Demo：提供了在线演示页面（与代码链接相同）。复现材料：给出了E-Vector和LoRA的关键超参数（α， r），但未提供完整的训练配置、检查点或附录。论文中引用的开源项目：依赖于F5-TTS模型。此外，评估使用了Seed ASR和3D-Speaker模型。 📌 核心摘要要解决什么问题：在语音合成领域，如何在缺乏大量方言与情感联合标注数据的情况下，生成同时具有特定方言口音和丰富情感表达的语音。方法核心是什么：提出了一种两阶段方法“分层表达向量（HE-Vector）”。第一阶段，基于F5-TTS模型，通过微调并提取“任务向量”来独立构建表示方言和情感的“表达向量（E-Vector）”。第二阶段，设计了一个“分层合并策略”，将方言E-Vector应用于模型的文本嵌入层和早期DiT块（负责音素发音），将情感E-Vector应用于后期DiT块（负责韵律语调），从而在推理时融合两种风格。与已有方法相比新在哪里：相比于直接合并不同风格的任务向量（会导致风格干扰）或采用双阶段流水线（易造成误差累积），该方法的核心创新在于提出了基于模型层功能分工的“分层整合”机制，使得方言和情感特征能更独立、更少干扰地被建模和融合，且无需联合标注数据。主要实验结果如何：在方言合成任务上，E-Vector增强模型（α=3.0）在8个方言上的平均MOS达到3.18，显著优于CosyVoice2（2.62）和全量微调模型（1.85）。在情感方言合成任务上，HE-Vector框架取得最佳平均MOS（2.83），优于完全合并E-Vector（2.76）、双阶段流水线（2.56）和CosyVoice2（1.87）。具体MOS对比见下表：方法平均MOS (方言合成) 平均MOS (情感方言合成) CosyVoice2 2.62 1.87 FT (微调) 1.85 未提供 FT-last (过度微调) 2.85 未提供 E-Vector (α=3.0) 3.18 未提供 LoRA E-Vector 2.35 未提供 Fully E-Vector 未提供 2.76 Dual-stage 未提供 2.56 HE-Vector (Ours) 未提供 2.83 实际意义是什么：为低资源甚至零样本下的复杂表达性语音合成（如方言+情感）提供了一种数据高效的解决方案，有助于方言文化遗产保护和更自然的个性化语音交互。主要局限性是什么：E-Vector的构建基于任务向量的线性缩放，而论文分析指出风格迁移的参数变化并非严格线性；该方法在其他TTS架构（如CosyVoice）上效果不佳，表明其通用性有限；实验中使用的方言和情感数据集部分为内部数据，未完全公开。 🏗️ 模型架构本文提出的方法（HE-Vector）是一个两阶段的框架，旨在增强预训练TTS模型（F5-TTS）以实现可控的表达性语音合成。整体架构如图1所示。 ...