UALM: Unified Audio Language Model for Understanding, Generation and Reasoning
📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #统一音频模型 #音频生成 #音频问答 #自回归模型 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #自回归模型 | #统一音频模型 #音频问答 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jinchuan Tian(卡内基梅隆大学,NVIDIA) 通讯作者:未明确标注,论文指出所有作者贡献相等(Equal Contribution) 作者列表: Jinchuan Tian(卡内基梅隆大学,NVIDIA) Sang-gil Lee(NVIDIA) Zhifeng Kong(NVIDIA) Sreyan Ghosh(NVIDIA,马里兰大学) Arushi Goel(NVIDIA) Chao-Han Huck Yang(NVIDIA) Wenliang Dai(NVIDIA) Zihan Liu(NVIDIA) Hanrong Ye(NVIDIA) Shinji Watanabe(卡内基梅隆大学) Mohammad Shoeybi(NVIDIA) Bryan Catanzaro(NVIDIA) Rafael Valle(NVIDIA) Wei Ping(NVIDIA) 💡 毒舌点评 亮点在于首次系统性地证明了一个基于自回归语言模型的音频模型,可以通过数据缩放和特定技巧(如CFG和DPO)在生成质量上追平甚至超越扩散模型,并进一步将其扩展为能进行文本-音频联合推理的统一模型,技术路线清晰且有效。短板则在于其宣称的“统一”模型,其核心的音频理解数据集(AF3)和大规模生成数据(30M)并未公开,这使得“统一训练”和“匹配专用模型性能”的结论在独立复现层面打了折扣,更像一个强大的NVIDIA内部能力展示。 ...