Aurelius: Relation Aware Text-to-Audio Generation At Scale
📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #流匹配 #基准测试 #数据集 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #基准测试 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Yuhang He (Microsoft Research) 通讯作者:Yuhang He (Microsoft Research) 作者列表:Yuhang He (Microsoft Research), He Liang (University of Oxford, Department of Computer Science), Yash Jain (Microsoft Research), Andrew Markham (Microsoft Research), Vibhav Vineet (Microsoft Research) 💡 毒舌点评 亮点:本文核心贡献在于为“关系感知文本到音频生成”这一被忽视的子任务,系统性地构建了两个大规模、高质量的专用数据集(AudioEventSet 和 AudioRelSet)和一套完整的评测基准,精准填补了领域空白。短板:论文的“方法”部分更多是基于现有基线模型(如TangoFlux)进行评测和简单的微调实验,缺乏一个针对关系感知生成提出全新、完整架构的深度技术方案,创新性更偏向数据与评测而非模型本身。 ...