AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation
📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation #音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Le Wang(中国矿业大学,徐州) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Le Wang(中国矿业大学)、Jun Wang(快手科技,Kling AI)、Chunyu Qiang(快手科技,Kling AI)、Feng Deng(快手科技,Kling AI)、Chen Zhang(快手科技,Kling AI)、Kun Gai(快手科技,Kling AI) 💡 毒舌点评 亮点:这篇论文的野心很大,试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成,并且通过全面的实验确实做到了在多个任务上刷榜,证明了其架构设计的有效性。 短板:然而,论文对视频输入的强依赖像一根“拐杖”,限制了其在无视频场景下的应用,而号称的“统一”框架在代码和模型完全黑箱的情况下,其宣称的优越性和可复现性都要打上一个问号。 📌 核心摘要 解决的问题:现有视频到音频(包括音效、语音、音乐)的生成方法大多任务特定、模型碎片化,且跨模态(如唇音同步)对齐效果不佳,限制了通用性和生成质量。 方法核心:提出AudioGen-Omni,一个基于多模态扩散变换器(MM-DiT)的统一框架。其核心是引入了“歌词-转录编码器”,将音素/字素映射为帧级稠密表示;并设计了“相位对齐各向异性位置注入(PAAPI)”,在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码,以实现精细的跨模态同步。 创新点:a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架;b) 提出了无需音素时长监督的歌词转录编码模块;c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同,它解冻了所有模态并采用掩码输入策略,增强了灵活性。 主要实验结果:在VGGSound音频生成测试集上,其FD指标(PaSST 58.77, PANNs 6.29)优于MMAudio等基线(见表1)。在LRS3/LRS2语音生成测试中,其UTMOS(3.982/3.842)和DNSMOS(3.782/3.767)得分甚至超过真实语音,WER也大幅降低(17.56%/17.75%)(见表2)。在说话人相似度(SECS)评估中,其GE2E和VoxSim分数均高于其他方法(见表3)。模型能在1.91秒内生成8秒音频。 实际意义:为多媒体内容创作提供了一个高效、高质量的统一音频生成工具,有望简化视频后期制作流程,增强虚拟人物、游戏、社交媒体的音频沉浸感。 主要局限性:模型依赖视频输入,当无视觉信息时应用受限;论文未开源代码和模型,限制了社区复现和二次开发;虽能生成歌曲,但对复杂音乐结构的控制能力未深入展示。 🏗️ 模型架构 AudioGen-Omni是一个端到端的多模态扩散变换器,旨在根据可选的视频和文本输入,生成同步的音频、语音或歌曲。 ...