TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者:Navonil Majumder (NTU), Soujanya Poria (NTU) 作者列表:Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评 这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点,提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升,效果立竿见影。但依赖CLAP这个“裁判”本身的偏好(可能偏向特定音频风格或描述理解能力)进行优化,是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述?这是CRPO框架需要面对的更深层问题。 ...