PICOAUDIO2: Temporal Controllable Text-to-Audio Generation with Natural Language Description
📄 PICOAUDIO2: Temporal Controllable Text-to-Audio Generation with Natural Language Description #音频生成 #扩散模型 #文本到音频 #时间控制 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #文本到音频 #时间控制 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Zihao Zheng†(†标注表明该作者贡献部分在实习期间完成,其正式单位为上海交通大学MoE人工智能重点实验室X-LANCE实验室和上海AI实验室) 通讯作者:Mengyue Wu(上海交通大学MoE人工智能重点实验室X-LANCE实验室) 作者列表:Zihao Zheng(上海交通大学X-LANCE实验室 & 上海AI实验室)、Zeyu Xie(未说明具体单位,但根据作者排序和实验室隶属,推测可能同属X-LANCE或上海AI实验室)、Xuenan Xu(上海交通大学X-LANCE实验室 & 上海AI实验室)、Wen Wu(上海AI实验室)、Chao Zhang(上海AI实验室)、Mengyue Wu(上海交通大学X-LANCE实验室) 💡 毒舌点评 亮点:论文在数据处理上“两条腿走路”,既用LLM增强仿真数据的自然性,又用TAG模型从真实数据中挖掘时间信息,这种务实的混合训练策略有效弥合了合成与真实数据的鸿沟。短板:虽然声称在时序控制上达到SOTA,但核心生成骨架(DiT)是沿用已有工作(EzAudio),而时间戳矩阵的概念也源自其前身PicoAudio,因此“新瓶装旧酒”的成分略重,原创性打了点折扣。 📌 核心摘要 PicoAudio2旨在解决当前可控文本到音频(TTA)生成模型在音频质量(常依赖合成数据)和控制灵活性(受限于固定词汇)方面的不足。该方法的核心是提出一套结合仿真数据和真实数据(通过LLM和TAG模型标注时间)的混合数据处理流程,并设计了一个新颖的生成框架,该框架同时处理粗粒度的自然语言描述(TCC)和细粒度的、包含具体事件描述及时间戳的矩阵(TDC)。与现有方法相比,PicoAudio2首次实现了对开放域自由文本事件的细粒度时间控制,同时保持了高质量音频生成。实验证明,PicoAudio2在时间可控性(Segment-F1达0.857,多事件F1达0.771)和音频质量(IS达12.347,CLAP达0.383)上均优于AudioComposer、MAA2等基线,尤其在多事件时间对齐任务上表现突出。其实际意义在于为音视频内容创作、虚拟现实等需要精确音频时序编排的场景提供了更强大的工具。主要局限在于当前模型主要在时间上不重叠的真实数据子集上训练,因此对事件重叠场景的时间控制能力有限,这也是作者指出的未来工作方向。 🏗️ 模型架构 PicoAudio2的整体架构(如图2所示)基于扩散Transformer(DiT),旨在将文本语义和细粒度的时间控制信息融合,生成高质量的音频。 完整输入输出流程: 训练阶段:输入为音频波形、时间粗描述(TCC,如“a dog barks and a man speaks”)和时间细描述(TDC,包含事件描述和时间戳,如“dog barking at 1-3s, man speaking at 5-7s”)。音频经VAE编码为潜变量A;TCC经冻结的Flan-T5文本编码器得到语义特征C;TDC经时间戳编码器得到时间戳矩阵T。三者输入扩散骨干网络进行训练。 推理阶段:用户可提供TCC或TDC。若只提供TCC,系统会通过一个外部的LLM将其转化为TDC(如图3所示)。之后流程与训练类似:C来自TCC,T来自TDC(若无TDC,则T使用一个固定的嵌入序列)。模型通过扩散过程从噪声生成音频潜变量A,再经VAE解码为波形。 ...