Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models
📄 Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models #音频生成 #检索增强 #大型音频模型 #扩散模型 ✅ 6.5/10 | 前25% | #音频生成 | #检索增强 | #大型音频模型 #扩散模型 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Junqi Zhao(University of Surrey, CVSSP;Tencent AI Lab, Beijing) 通讯作者:Wenwu Wang(University of Surrey, CVSSP) 作者列表: Junqi Zhao(University of Surrey, CVSSP;Tencent AI Lab, Beijing) Chenxing Li(Tencent AI Lab, Beijing) Jinzheng Zhao(University of Surrey, CVSSP;Tencent AI Lab, Beijing) Rilin Chen(Tencent AI Lab, Beijing) Dong Yu(Tencent AI Lab, Seattle) Mark D. Plumbley(University of Surrey, CVSSP) Wenwu Wang(University of Surrey, CVSSP) (通讯作者) 💡 毒舌点评 亮点在于其“反馈驱动”的框架设计很巧妙,让一个大型音频模型(LALM)去检查另一个生成模型(TTA)的作业,找出了“漏写的声音”,然后去资料库(检索数据库)里找参考答案补上,实现了一种通用且低成本的性能增强。短板是这套流程的“下限”严重依赖那个外部资料库(音频数据库)的全面性和质量,论文中并未充分探讨当数据库里没有合适参考或LALM“找错题”时的容错机制,且评估指标虽然全面,但未能揭示在极端复杂音频场景下的具体失效模式。 ...