Sound Sparks Motion: Audio and Text Tuning for Video Editing

📄 Sound Sparks Motion: Audio and Text Tuning for Video Editing #视频编辑 #测试时调优 #音视频 #多模态模型 📝 5.5/10 | 前25% | #视频编辑 | #测试时调优 | #音视频 #多模态模型 | arxiv 学术质量 4.7/8 | 影响力 0.6/1 | 可复现性 0.2/1 | 置信度 中 👥 作者与机构 第一作者:AmirHossein Naghi Razlighi (论文中未明确说明所属机构) 通讯作者:论文中未明确说明 作者列表:AmirHossein Naghi Razlighi (未说明)、Aryan Mikaeili (未说明)、Ali Mahdavi-Amiri (未说明)、Daniel Cohen-Or (未说明)、Yiorgos Chrysanthou (未说明) 💡 毒舌点评 亮点:论文精准定位了视频生成模型在“运动编辑”上的普遍短板,并提出了一个动机清晰、框架轻量(免训练)的测试时调优解决方案。其核心洞察在于联合利用音频和文本条件作为控制轴,这一多模态视角颇具启发性。 短板:方法严重依赖一个未公开的、特定的“音频-视觉视频生成模型”,其通用性存疑;核心监督信号来自一个黑盒VLM,引入了不可控的评估偏差;且当前摘要中完全缺乏定量实验对比,使得任何关于“有效性”或“优越性”的结论都悬而未决,说服力严重不足。 📌 核心摘要 问题:现有大型视频生成模型在“运动编辑”方面表现不佳。它们能很好地响应外观变化,但难以根据文本提示在已有视频中产生特定、局部的动作或状态转换。 核心方法:提出“Sound Sparks Motion”,一个免训练的测试时调优框架。它通过对一个音频-视觉视频生成模型内部的多模态条件信号进行微调来实现运动编辑。具体是调优两个轻量变量:一个从源视频派生的音频潜在表示,以及文本条件的一个残差扰动。 新颖之处:与修改模型权重的微调或仅依赖文本提示的方法不同,该方法通过联合调优音频和文本条件信号(特别是音频通路),挖掘模型中潜在的、难以通过纯文本控制的运动控制能力。 实验结果:论文摘要未提供任何定量实验结果数值。关键结论基于定性观察和消融分析:单独调优音频或文本效果不佳,组合是必要的;学习到的调优变量具有跨视频迁移的潜力。 实际意义:为视频内容创作者提供了一种新的、基于音频线索的细粒度运动编辑工具。更重要的是,提出了一种通过测试时调优来“探针”和释放预训练多模态模型隐藏能力的范式。 主要局限:方法效果受限于底层音频-视觉生成模型的质量和多模态条件结构。评估依赖于另一个预训练的VLM,其准确性无法保证。计算成本(每个视频需要调优)和泛化到其他视频编辑任务的能力有待验证。 🔗 开源详情 代码:论文摘要提及代码可通过项目页面获取,但未给出具体链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文摘要提及代码和数据可通过项目主页获取:https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/ 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 整体流程概述:这是一个免训练的测试时调优(Test-Time Tuning)框架。输入是需要编辑的源视频、描述期望运动的文本提示,以及一个预训练的音频-视觉视频生成模型。核心处理过程是通过一个基于VLM反馈的优化环路,对模型的音频条件和文本条件进行轻微调整。输出是运动被编辑后的视频。 ...

2026-05-18 · 更新于 2026-05-19 · 1 min · 211 words

AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

📄 AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner #视频编辑 #扩散模型 #音频生成 #音视频 🔥 8.0/10 | 前25% | #视频编辑 | #扩散模型 | #音频生成 #音视频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院) 通讯作者:Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 作者列表:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院),Shuchen Weng(北京人工智能研究院,北京大学计算机科学学院),Jingqi Liu(北京大学软件与微电子学院,北京人工智能研究院),Siqi Yang(北京大学人工智能研究院),Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 💡 毒舌点评 这篇工作就像一位细心的“音频-视频外科医生”,不仅能精准切除或替换视频中的特定实例(如把狗变成猫),还能确保它的叫声也同步变化,这种对模态间精细时空对齐的执着在现有编辑工具中相当稀缺。然而,其“手术”目前一次只能处理一个“病人”(单实例),且整个“手术器械”(自反馈音频代理)依赖一个外部模型“工具箱”,这让人担心其在真实世界复杂场景下的自主性和鲁棒性。 📌 核心摘要 问题:现有视频编辑方法主要关注视觉层面,破坏了原始视频中至关重要的音频-视频同步,且缺乏实例级别的精细空间和时间控制。 方法核心:提出AVI-Edit框架,包含三个关键组件:基于Wan2.2的音频同步视频骨干网络(通过帧级交叉注意力融合音频信息)、粒度感知遮罩精炼器(GAMR,迭代式地将用户提供的粗糙遮罩精化为精确的实例轮廓)、自反馈音频代理(通过“分离-生成-重混-修正”的闭环流程,利用外部工具生成高质量的引导音频)。 创新点:a) 引入“精度因子”来量化和控制遮罩的粗糙程度,实现迭代式遮罩精化;b) 设计了自反馈音频代理,能够根据场景自适应选择分离和生成模型,并通过质量评判进行迭代优化;c) 构建了首个大规模、实例中心的音频-视频编辑数据集AVISet。 实验结果:在AVISet和AvED-Bench两个数据集上,AVI-Edit在视觉质量(FVD/IS)、条件遵循(TC/AC)和音视频同步(Sync-C/D)等定量指标上均优于现有方法(AvED, Ovi, VACE-Foley)。用户研究显示,在音视频同步、文本对齐和总体偏好方面,AVI-Edit均获得最高支持率(最高达49.20%)。 实际意义:为高质量的视频内容创作提供了新工具,允许用户在保留背景和非目标音频的前提下,对视频中的特定实例及其关联音频进行精准、同步的编辑,适用于影视后期、短视频创作等场景。 主要局限性:a) 目前仅支持单实例顺序编辑,无法同时处理多个目标实例;b) 框架的音频代理模块依赖一组预设的外部模型,其性能受限于这些外部组件的质量和泛化能力。 🔗 开源详情 代码:论文中未提及代码链接 ...

2026-05-07 · 更新于 2026-05-19 · 3 min · 444 words