Direct Preference Optimization For Speech Autoregressive Diffusion Models
📄 Direct Preference Optimization For Speech Autoregressive Diffusion Models #语音合成 #扩散模型 #偏好优化 #零样本 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) 通讯作者:Shuai Wang(南京大学智能科学与技术学院) 作者列表: Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) Dongya Jia(字节跳动Seed) Xiaoqiang Wang(字节跳动Seed) Chenpeng Du(字节跳动Seed) Shuai Wang(南京大学智能科学与技术学院;深圳湾区研究院) Zhuo Chen(字节跳动Seed) Haizhou Li(香港中文大学(深圳)SDS, SRIBD, SAI;深圳湾区研究院) 💡 毒舌点评 亮点在于首次成功将DPO“移植”到语音自回归扩散模型上,用实验证明了其能显著提升表达力(F0方差翻倍)和鲁棒性(CER降25%),开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释,且开源信息仅限音频示例,核心代码与模型未公开,影响了工作的可复现性和影响力。 📌 核心摘要 问题:当前基于自回归扩散模型(ARDM)的零样本TTS虽性能领先,但生成的语音常与人类偏好不对齐,例如在给定情感提示时仍可能产出单调的语音,缺乏表达力且在处理长难句时鲁棒性不足。 方法核心:提出ARDM-DPO,一种专为语音ARDM设计的直接偏好优化方法。它将DPO从离散LLM或通用扩散模型扩展到连续Token的自回归扩散框架中,推导了适用于v-prediction(如DiTAR模型)的训练目标函数。 新意:这是首个针对TTS领域ARDM的偏好对齐方法。它无需训练独立的奖励模型,而是直接利用偏好数据微调模型,使模型输出分布向人类偏好的样本偏移。 实验结果:在DiTAR基座模型上进行实验。任务A(提升表达力):ARDM-DPO将F0方差从14.2 Hz提升至29.2 Hz(近翻倍),同时说话人相似度(SIM)仅从0.770微降至0.765,WER从5.17%降至3.73%。任务B(提升鲁棒性):在复杂文本测试集上,CER从8.37%降至6.32%(降幅25%)。主观评估显示,任务A中表达力获显著提升,任务B中自然度和说话人相似度得以保持。主要结果见表1和表2。 表1:任务A(提升F0方差)部分结果 ...