Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference
📄 Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference #音频生成 6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6/10 | 前50% | #音频生成 | #音频生成 | arxiv 👥 作者与机构 第一作者:Jiahui Zhao;其他作者:Tianrui Wang, Chunyu Qiang, Cheng Gong, Xijuan Zeng, Feng Deng, Longbiao Wang。 机构:天津大学(1),快手科技(2)。 💡 毒舌点评 “创新”稍显保守:把参考音频拆成音色和节奏分别处理,这想法不算石破天惊。说“首次”或“新颖”有点过了,更像是工程上把已知的两个编码器(BEATs和Style Conditioner)合理地拼了一下。真正的挑战和创新点(如果有的话)在于这种拆分在生成任务上到底比“整体条件”好了多少,以及是否真的在“控制”。 实验“充分”但“不惊艳”:VGGSound数据集+MMAudio微调,标准操作。消融实验(表1)逻辑清晰,证明了各模块都有贡献。但和最SOTA的V2A方法比了吗?只和自家MMAudio的几个变体比,说服力打折。风格相似性提升显著(表2),但以牺牲多少生成多样性或引入多少伪影为代价?论文似乎回避了这个问题。 开源“态度”存疑:给个匿名demo链接,代码权重都不给。想复现?自己搭MMAudio环境再“微调”800步?这对社区共享和技术复现非常不友好。作为预印本可以理解,但降低其短期实际影响力。 局限性“轻描淡写”:作者自己提到了在人声上效果弱,归因于节奏编码器的训练偏差。但更根本的问题是:1)这种固定的“音色-节奏”二分法是否真的普适?2)“控制”的程度和边界在哪?能插值吗?能只改节奏不改音色吗?论文没有深入探讨。 部分结论“过度外推”:从“在VGGSound上改善风格相似性”直接跳到“使模型可控”,有点跳跃。这更像是在特定设定下的风格模仿,距离真正的、可交互的“控制”还有距离。标题中的“Controlling”略显激进。 📌 核心摘要 本文提出了AudioIM,一个用于视频到音频(V2A)生成、并能控制生成音频音色和节奏的属性感知框架。现有V2A方法通常将参考音频作为整体条件信号,难以实现对风格属性的细粒度控制。为此,AudioIM采用两项关键技术:1)掩码训练策略:在训练时部分遮蔽音频潜在表示,使模型学习在部分观测条件下进行流匹配推断,从而在推理时能利用提示音频的潜在特征提供细粒度风格信息。2)双风格编码器:使用基于BEATs的音色编码器和基于Style Conditioner的节奏编码器,分别从参考音频中提取音色和节奏特征,并通过全局和帧级条件注入生成骨干网络。在VGGSound数据集上的实验表明,AudioIM在保持语义对齐和时间同步性能的同时,显著提升了生成音频与参考音频的风格相似性(SS-MOS从基线3.22提升至4.06)。消融研究验证了各组件的有效性。论文指出该方法在非人声音效(特别是乐器声)上效果更显著,而对人声的风格控制较弱。 ...