文本到音频

📄 PICOAUDIO2: Temporal Controllable Text-to-Audio Generation with Natural Language Description #音频生成 #扩散模型 #文本到音频 #时间控制 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #文本到音频 #时间控制学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zihao Zheng†（†标注表明该作者贡献部分在实习期间完成，其正式单位为上海交通大学MoE人工智能重点实验室X-LANCE实验室和上海AI实验室）通讯作者：Mengyue Wu（上海交通大学MoE人工智能重点实验室X-LANCE实验室）作者列表：Zihao Zheng（上海交通大学X-LANCE实验室 & 上海AI实验室）、Zeyu Xie（未说明具体单位，但根据作者排序和实验室隶属，推测可能同属X-LANCE或上海AI实验室）、Xuenan Xu（上海交通大学X-LANCE实验室 & 上海AI实验室）、Wen Wu（上海AI实验室）、Chao Zhang（上海AI实验室）、Mengyue Wu（上海交通大学X-LANCE实验室） 💡 毒舌点评亮点：论文在数据处理上“两条腿走路”，既用LLM增强仿真数据的自然性，又用TAG模型从真实数据中挖掘时间信息，这种务实的混合训练策略有效弥合了合成与真实数据的鸿沟。短板：虽然声称在时序控制上达到SOTA，但核心生成骨架（DiT）是沿用已有工作（EzAudio），而时间戳矩阵的概念也源自其前身PicoAudio，因此“新瓶装旧酒”的成分略重，原创性打了点折扣。 📌 核心摘要 PicoAudio2旨在解决当前可控文本到音频（TTA）生成模型在音频质量（常依赖合成数据）和控制灵活性（受限于固定词汇）方面的不足。该方法的核心是提出一套结合仿真数据和真实数据（通过LLM和TAG模型标注时间）的混合数据处理流程，并设计了一个新颖的生成框架，该框架同时处理粗粒度的自然语言描述（TCC）和细粒度的、包含具体事件描述及时间戳的矩阵（TDC）。与现有方法相比，PicoAudio2首次实现了对开放域自由文本事件的细粒度时间控制，同时保持了高质量音频生成。实验证明，PicoAudio2在时间可控性（Segment-F1达0.857，多事件F1达0.771）和音频质量（IS达12.347，CLAP达0.383）上均优于AudioComposer、MAA2等基线，尤其在多事件时间对齐任务上表现突出。其实际意义在于为音视频内容创作、虚拟现实等需要精确音频时序编排的场景提供了更强大的工具。主要局限在于当前模型主要在时间上不重叠的真实数据子集上训练，因此对事件重叠场景的时间控制能力有限，这也是作者指出的未来工作方向。 🏗️ 模型架构 PicoAudio2的整体架构（如图2所示）基于扩散Transformer（DiT），旨在将文本语义和细粒度的时间控制信息融合，生成高质量的音频。完整输入输出流程：训练阶段：输入为音频波形、时间粗描述（TCC，如“a dog barks and a man speaks”）和时间细描述（TDC，包含事件描述和时间戳，如“dog barking at 1-3s, man speaking at 5-7s”）。音频经VAE编码为潜变量A；TCC经冻结的Flan-T5文本编码器得到语义特征C；TDC经时间戳编码器得到时间戳矩阵T。三者输入扩散骨干网络进行训练。推理阶段：用户可提供TCC或TDC。若只提供TCC，系统会通过一个外部的LLM将其转化为TDC（如图3所示）。之后流程与训练类似：C来自TCC，T来自TDC（若无TDC，则T使用一个固定的嵌入序列）。模型通过扩散过程从噪声生成音频潜变量A，再经VAE解码为波形。 ...