ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling #音频生成 #多模态模型 #扩散模型 #基准测试 🔥 评分:9.2/10 | arxiv 👥 作者与机构 第一作者:Jianxuan Yang(小米 MiLM Plus) 通讯作者:Jian Luan(小米 MiLM Plus) 其他作者: Xinyue Guo(小米 MiLM Plus) Zhi Cheng(小米 MiLM Plus,武汉大学) Kai Wang(小米 MiLM Plus,武汉大学) Lipan Zhang(小米 MiLM Plus) Jinjie Hu(小米 MiLM Plus) Qiang Ji(小米 MiLM Plus) Yihua Cao(小米 MiLM Plus) Yihao Meng(小米 MiLM Plus,武汉大学) Zhaoyue Cui(小米 MiLM Plus,武汉大学) Mengmei Liu(小米 MiLM Plus) Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。 槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。 ...

2026-04-19

Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram

📄 Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram #信号处理 #时频分析 #音频生成 #音频理解 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:David Valdivia(法国图卢兹大学 IRIT 实验室) 通讯作者:Cédric Févotte(法国图卢兹大学 IRIT 实验室) 其他作者:Elsa Cazelles(法国图卢兹大学 IRIT 实验室) 💡 毒舌点评 亮点:这篇论文巧妙地将最优传输(OT)理论“嫁接”到经典的时频分析难题上,为解决Gabor-Heisenberg不确定性原理带来的分辨率权衡问题提供了新颖且数学严谨的视角。其设计的结构化代价矩阵和对应的无熵正则化UOT算法是两大技术亮点,显著提升了融合质量和计算效率。 槽点:方法虽然精巧,但更像一个“后期处理工具”,而非端到端的解决方案。它严重依赖于输入谱图的质量,且目前主要聚焦于提升分辨率这一单一目标,对于更复杂的音频任务(如去噪、分离)的集成路径尚不明确。此外,算法虽比传统OT快,但面对超长音频或实时处理场景,其迭代优化的本质可能仍是瓶颈。 📌 核心摘要 核心问题:短时傅里叶变换(STFT)生成的谱图受制于不确定性原理,无法同时获得优异的时间和频率分辨率。传统融合方法(如几何平均)要求输入谱图网格对齐,且性能有限。 核心方法:本文提出一种基于最优传输(OT)的谱图融合方法。将不同分辨率的谱图视为时频平面上的非负能量分布,通过计算它们的非平衡最优传输(UOT)重心来生成一个“超分辨率”谱图。关键创新包括:1) 设计了结构化代价矩阵,将能量传输约束在时间或频率轴的相邻点,符合时频物理意义;2) 提出了一个块状Majorization-Minimization(MM)算法,可直接求解无熵正则化的UOT重心问题,避免了传统方法因熵正则化导致的谱图模糊。 主要发现:在合成信号和真实语音上的实验表明,该方法能有效结合输入谱图的最佳特性:既保留了长窗口谱图的高频率分辨率,又继承了短窗口谱图的高时间分辨率。在频率定位、时间定位和谐波浓度等多项指标上,均优于输入谱图及几何平均基线方法,且“不同网格”设置在保持性能的同时大幅降低了计算成本。 实际意义:为音频和信号处理领域提供了一种强大的后处理工具,可用于生成更清晰、信息更丰富的时频表示,对语音分析、音乐信息检索、声学事件检测等依赖高质量谱图的任务具有直接应用价值。 🏗️ 模型架构 该论文提出的是一个基于优化的信号处理框架,而非传统的神经网络模型。其整体流程如下: 输入:同一信号的两个(或多个)谱图 X1 和 X2,使用不同长度的分析窗口计算得到。X1 使用长窗口,具有高频率分辨率但时间模糊;X2 使用短窗口,具有高时间分辨率但频率模糊。它们的时频网格(S1, S2)可以不同。 分布化:将每个谱图 X 向量化为 x,并将其视为定义在时频网格点集合 S 上的非负离散分布(测度) χ。对于OT计算,需要将 x 归一化为概率向量(和为1);对于UOT,则无需归一化。 定义目标网格:用户指定一个目标超分辨率谱图的时频网格 S。一个典型选择是 S = F1 × T2,即采用高频率分辨率谱图 X1 的频率采样 F1 和高时间分辨率谱图 X2 的时间采样 T2。 构建代价矩阵:这是核心设计。对于从输入分布 α (对应 X1) 到目标分布 γ (对应输出 X) 的运输,定义代价矩阵 C̃1。其条目 C̃1_{i1,i} 仅在满足以下条件时为有限值(否则为+∞):a) 频率索引相同 (m1 = m);b) 时间索引 n 属于与 n1 重叠的帧集合 O1(n1)。类似地,定义从 β (对应 X2) 到 γ 的代价矩阵 C̃2,其约束为时间索引相同 (n2 = n) 且频率索引 m 属于与 m2 重叠的频率集合 O2(m2)。这些约束强制能量只能在相邻的、有物理意义的时频点间移动。 计算UOT重心:求解优化问题,找到目标分布 γ(权重向量 g),使其最小化加权UOT代价之和:(1-λ)UOT_{C̃1}(x1, g) + λUOT_{C̃2}(x2, g)。其中UOT代价包含运输成本以及衡量边际分布不匹配程度的KL散度惩罚项。 算法求解:使用提出的块状MM算法(算法1)迭代求解上述问题。算法交替更新运输计划 Tα, Tβ 和重心权重 g。更新规则利用了KL散度的共轭性质,具有闭合形式。 输出:将求解得到的权重向量 g 反向映射回矩阵形式,得到超分辨率谱图 X。该谱图在目标网格 S 上定义,兼具高时间和高频率分辨率。 💡 核心创新点 基于最优传输的谱图融合框架: ...

2026-04-19

Four Decades of Digital Waveguides

📄 Four Decades of Digital Waveguides #音频生成 #信号处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Pablo Tablas de Paula(推断:可能为英国伦敦大学金史密斯学院或相关机构,论文未明确提供机构信息) 通讯作者:Joshua D. Reiss(英国伦敦大学金史密斯学院, Centre for Digital Music) 其他作者:Julius O. Smith(美国斯坦福大学, CCRMA - 中心计算机研究用于声学与音乐研究),Vesa Välimäki(芬兰阿尔托大学, 艺术、设计与建筑学院) 注:以上机构信息基于该领域知名学者的常见隶属关系及论文作者公开信息推断。提供的论文摘要中未包含明确的机构列表。 💡 毒舌点评 亮点是作为一篇“编年史”式的综述,它清晰梳理了数字波导这一经典而高效的物理建模技术四十年的演进脉络,特别是将其与现代机器学习优化方法结合的前沿方向,为老牌技术注入了新活力。槽点在于,对于一篇旨在“深度分析”的论文请求,这篇摘要本身提供的信息过于概括,缺乏具体模型细节、实验数据和对比结果,更像是一个邀请你阅读全文的“预告片”,而非完整的技术报告。 📌 核心摘要 这篇论文旨在全面回顾数字波导物理建模技术自诞生以来四十年的发展历程、核心应用与最新进展。它要解决的核心问题是,如何在保证物理模拟准确性的同时,实现声波传播模拟的高效计算,以满足实时音频处理(如虚拟乐器、混响)的需求。论文阐述了数字波导的核心方法,即利用延迟线和滤波器构建的高效网络来模拟行波,并对比了其与通用有限差分法在计算效率上的巨大优势。主要发现包括,数字波导技术已成功应用于乐器合成、人声建模和人工混响等多个领域,并且通过结合经典的、进化的以及新兴的神经网络优化方法(如可微分数字信号处理),其参数优化能力得到了显著增强,使其能更灵活地匹配目标声学特性。实际意义在于,该技术为实时、高保真的物理建模音频应用提供了坚实的理论基础和实践工具。局限性在于,作为一篇综述,它并未提出全新的波导结构,而是侧重于总结和整合现有技术,且对最新机器学习优化方法的讨论可能尚处初步阶段。 🏗️ 模型架构 由于本文是一篇综述论文,它并不提出一个单一的、具体的“模型架构”,而是系统性地描述了数字波导(Digital Waveguide, DWG) 这一建模范式及其各种变体和应用。其核心思想和典型架构如下: 核心原理与基本单元: 输入:激励信号(例如,拨弦的脉冲、吹管的噪声)。 核心组件:一个基本的数字波导段由一对反向传播的延迟线(通常长度相等)和位于其连接点的散射 junction(或滤波器)构成。延迟线模拟声波在介质中的传播时间,散射节点模拟波在边界处的反射和透射。 输出:在波导的某个特定点(通常是散射节点)提取信号作为合成声音。 典型应用架构示例(如Karplus-Strong弦模型): 激励生成:生成一个短促的噪声脉冲或采样作为初始扰动。 波导环路:信号进入一个闭合的波导环路,环路总延迟时间对应于音符的基频周期(延迟长度 = 采样率 / 基频)。 滤波与衰减:在环路中插入一个低通滤波器,模拟弦振动能量在高频的耗散(即音色变暗)和整体幅度衰减。 循环与输出:信号在环路中循环,每次循环都因滤波而衰减,形成自然的衰减振荡波形。从环路中持续输出合成音频。 高级扩展: 滤波器设计:使用更精细的数字滤波器(如插值滤波器、全通滤波器)来模拟更复杂的边界条件和色散效应。 非线性:在波导中引入非线性函数,以模拟如簧片振动、弓弦摩擦等非线性激励机制。 分布式参数:将多个波导段连接,模拟非均匀介质(如带有音孔的管乐器)。 与物理参数的映射:波导的长度、滤波器系数等直接对应于物体的物理参数(长度、张力、材料阻尼),使得控制直观。 数据流动:激励信号 → 进入波导网络(延迟与滤波) → 在网络中传播与相互作用 → 在观测点提取合成信号。这是一个前馈/循环的确定性信号处理流程,无需“训练”,其行为完全由物理参数决定。 ...

2026-04-19

Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

📄 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery #音频生成 #多模态模型 #基准测试 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kunlin Wu(香港科技大学(广州)) 通讯作者:根据论文署名和致谢信息,推测通讯作者可能为 Xiaofeng Liu(香港科技大学(广州)),论文中未明确标注。 其他作者: Yanning Wang(香港科技大学(广州)) Haofeng Tan(南卡罗来纳大学,美国) Boyi Chen(香港科技大学(广州)) Teng Fei(坎特伯雷大学,新西兰) Xianping Ma(西南交通大学,中国) Yang Yue(香港科技大学(广州)) Zan Zhou(北京邮电大学,中国) Xiaofeng Liu(香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文想象力爆棚,硬是把“看卫星图猜声音”这个看似不着边际的想法,做成了一个有模有样的系统任务,还搭了个大规模数据集,属实是“跨模态整活”的典范。槽点:方法上有点“拼积木”的意思,依赖现成的视觉模型、语言模型和音频生成模型,自己核心的“对齐”模块虽然巧妙但略显单薄,像是在给一堆大佬打补丁,创新性更多体现在任务定义和工程整合上。 📌 核心摘要 这篇论文提出了一个名为 Geo2Sound 的新任务和框架,旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战:缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上,它设计了一个三阶段流水线:首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性(如植被覆盖率、建筑密度);然后利用大语言模型为同一场景生成多个声学上合理的文本描述(语义假设扩展),并用文本到音频模型生成对应的候选音频;最后训练一个地理-声学对齐模块,将地理属性投影到音频嵌入空间,从候选集中选择与地理环境最匹配的音频。主要发现是,该框架在自建的 SatSound-Bench 基准(包含超过2万对数据)上取得了SOTA性能,FAD指标达到1.765,比最强基线提升50%,并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型(VLM, T2A),且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。 🏗️ 模型架构 Geo2Sound的整体架构是一个三阶段流水线,将卫星图像最终转化为一个与地理环境最匹配的音频文件。 输入:一张512x512像素的卫星图像。 阶段一:结构地理空间属性建模 功能:将原始图像转化为结构化的、对声学推理有用的地理属性描述符。 流程: 使用固定的预训练视觉主干网络(DINOv3)提取密集的、 patch级别的图像特征。 对这些特征进行K-means聚类(k=8),将图像分割成空间上连贯的区域。 对每个聚类区域,计算一组视觉统计特征(RGB/HSV均值、纹理、边缘密度),并与该区域的平均特征拼接,形成该区域的描述。 通过启发式打分生成伪标签,并用这些伪标签训练一个两阶段随机森林分类器。第一阶段过滤低置信度样本,第二阶段在高质量样本上重训,作为最终分类器,输出每个区域属于不同类别(植被、水体、建筑区、道路等)的概率。 最后,将所有区域的分类概率按面积加权聚合,得到整幅图像的地理属性向量(5维:植被覆盖率、水体比例、建筑比例、道路密度、土地利用混合度),并计算香农熵作为场景多样性度量。 输出:一个紧凑的、图像级别的地理描述符(6维向量)。 阶段二:语义假设扩展 功能:解决卫星图像对应多种可能声音场景的歧义问题。 流程: 将卫星图像输入视觉语言模型(GPT-5.2),生成一个基础场景描述文本(C0)。 设计特定的提示词,要求模型基于C0生成两个在声学条件上明显不同(如繁忙vs安静、有自然声vs无自然声)但视觉上仍一致的替代描述(C1, C2)。 将这三个文本描述(C0, C1, C2)分别输入一个文本到音频(T2A)生成模型(如Make-An-Audio 2),每个描述生成2个音频样本,总计得到6个候选音频。 输出:一个包含6个候选音频片段的集合,每个都与原始卫星图像在语义上兼容,但声学氛围不同。 阶段三:地理-声学对齐模块 功能:从多个候选音频中,选择与该地点地理环境最匹配的一个。 流程: 使用一个轻量级的投影网络(两层MLP),将阶段一输出的地理属性向量映射到音频嵌入空间,得到一个“地理查询向量”。 使用预训练的音频模型(CLAP)对所有6个候选音频进行编码,得到它们的音频嵌入向量。 计算“地理查询向量”与每个候选音频嵌入向量之间的余弦相似度。 选择相似度最高的候选音频作为最终输出。 输出:最终生成的、地理对齐的声音景观音频。 整体数据流:卫星图像 -> 地理属性向量 & 文本描述 -> 候选音频集合 -> 选出最佳音频。核心思想是“先发散(生成多样候选),后收敛(基于地理信息筛选)”。 💡 核心创新点 定义新任务与基准:首次明确提出“从卫星图像生成声音景观”这一跨模态生成任务,并建立了首个大规模配对基准数据集 SatSound-Bench。这为该领域的研究奠定了基础,开辟了遥感与音频生成交叉的新方向。 语义假设扩展策略:针对卫星图像的“一对多”声学歧义,创新性地提出不依赖单一描述,而是为同一图像生成多个声学条件不同的文本假设,再通过T2A模型生成候选集。这显式地建模了不确定性,并为后续的地理对齐提供了选择空间,比直接生成单一音频更合理。 地理-声学对齐模块:设计了一个轻量级模块,将从图像中提取的宏观地理属性(如建筑密度)投影到音频特征空间,作为先验来选择候选音频。这巧妙地引入了更广泛的地理上下文约束,确保了生成声音的地理合理性,而无需在生成模型内部进行复杂改造。 可扩展的框架设计:整个框架是模块化的,可以灵活替换不同的视觉编码器、T2A生成器和音频编码器。其“属性提取-假设生成-对齐选择”的范式具有通用性,为处理其他具有语义模糊性的跨模态生成问题提供了新思路。 🔬 细节详述 训练数据: SatSound-Bench:总计28,630个卫星-文本-音频三元组。其中24,400用于训练,4,230用于测试。 来源:a) 实地录制:在中国、斯里兰卡、泰国等10多个国家多个城市使用车载设备(Zoom F6录音机、定向/全向麦克风、Insta360相机)录制。音频为10秒单声道片段,48kHz采样率。b) 公共数据集:SoundingEarth, iNaturalist Sounds, Freesound。 对齐与过滤:卫星图像来自Google Maps,与音频时间窗口对齐(±3个月)。文本描述:实地录制部分由人工标注后经LLM(GPT-5.2)扩展,公共数据集部分直接由LLM生成。使用CLAP相似度>0.5过滤低质量音文对。 损失函数: 地理-声学对齐模块训练:使用余弦回归损失。目标是让投影后的地理嵌入与参考音频的CLAP嵌入(经PCA降维到32维)在嵌入空间中的余弦相似度最大化。损失函数为:Loss = 1 - cosine_similarity(MLP(geo_descriptor), audio_embedding_PCA)。 训练策略: 优化器:AdamW。 学习率:1e-3,权重衰减1e-4。 Batch Size:64。 训练轮数:最多80轮,使用早停策略(耐心值12)。 学习率衰减:未明确提及,但早停策略隐含了训练过程的终止。 验证集:15%的训练数据,随机种子固定为42。 关键超参数: 聚类数K-means:k=8。 随机森林树数量:300。 伪标签置信度阈值:0.70。 最小聚类面积比:0.01。 地理描述符维度:5(加上多样性熵为6)。 音频嵌入PCA降维后维度:32。 对齐MLP结构:5 -> 256 (GELU) -> 256 (GELU) -> 32, dropout率0.1。 候选音频数量N:6(主实验设置)。 训练硬件:8块NVIDIA RTX Pro 6000 Blackwell GPU(96GB显存)。 推理细节: 每个场景生成6个候选音频(3个文本假设 x 2个样本)。 通过计算地理查询向量与6个候选音频嵌入的余弦相似度进行排序,选择最高分者输出。 数据增强/正则化: 在对齐模块的MLP中使用了dropout(率0.1)。 输入地理特征进行z-score标准化。 输出嵌入进行L2归一化。 📊 实验结果 主要指标对比表(部分关键数据): ...

2026-04-19

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

📄 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence #音频生成 #音视频 #多模态模型 #扩散模型 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者: Zhenghao Zhang (阿里巴巴云计算) Xiangyu Meng (阿里巴巴云计算) Litao Li (阿里巴巴云计算) Ziying Zhang (阿里巴巴云计算) Siyu Zhu (复旦大学) 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。 💡 毒舌点评 亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。 槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。 📌 核心摘要 本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。 🏗️ 模型架构 Tora3基于一个双流扩散Transformer(DiT)架构(继承自Ovi),包含独立的视频和音频主干网络。其整体输入输出流程及核心组件如下: 输入:文本提示(Prompt)、可选的初始图像、以及物体轨迹(一系列物体在每帧的2D坐标)。 视频分支流程: VAE编码:初始图像通过预训练的VAE编码器得到潜在表示 z。 轨迹对齐运动表示:这是核心创新之一。不引入额外编码器,而是直接将轨迹映射到潜在空间坐标。对于每个物体的轨迹,在视频潜在序列的每一帧中,将该轨迹点对应的潜在位置特征,替换为初始图像在该物体起始位置的特征 z。非轨迹区域初始化为零(首帧除外)。这相当于在潜在空间“绘制”了运动的物体。 注入与生成:上述构建的 x_traj 作为条件,与噪声潜在变量 x_t 一起输入视频DiT主干。主干由N个Fusion Block组成,内部包含自注意力、跨注意力(用于融合文本嵌入)和前馈网络。 音频分支流程: VAE编码:目标音频波形通过音频VAE编码器得到音频潜在表示。 运动学特征提取:从轨迹中计算每个物体在每一帧的8维运动学特征向量 ϕ,包括:归一化位置 (r)、速度向量 (v)、加速度向量 (a)、速度模长 ||v||、加速度模长 ||a||。这些特征经过归一化和对数压缩后,通过一个3层MLP编码器 ℰ_k 映射为运动学令牌 H_kin。 运动学-音频融合:在音频DiT的每个Transformer块中,在自注意力层之后、原有的文本跨注意力层之前,插入一个辅助的跨注意力层。该层以音频潜在状态为查询(Query),以运动学令牌 H_kin 为键(Key)和值(Value),并应用RoPE保持时间对齐。输出通过一个可学习的门控机制(参数 γ,初始化为-10)与原始音频状态残差相加,从而自适应地平衡语义条件与运动学条件。 混合流匹配(视频训练目标): 这是另一个核心创新。在训练时,对视频潜在空间的不同区域采用不同的流匹配目标。 定义区域:根据轨迹坐标定义二值掩码 M,标识出轨迹经过的时空位置 Ω_traj。 混合目标: 在非轨迹区域 (M=0):采用标准流匹配目标,即从干净潜变量 x_0 到高斯噪声 ϵ 的线性插值。 在轨迹区域 (M=1):将噪声终点替换为之前构建的轨迹条件潜变量 x_traj,即从 x_0 到 x_traj 的插值。这迫使模型在这些区域学习保留轨迹注入的运动先验。 损失函数:视频损失被分解为轨迹区域损失 L_traj 和非轨迹区域损失 L_out 的加权和(权重均为0.5),以防止稀疏的轨迹区域被主导。音频损失沿用Ovi的原始损失。 输出:视频DiT和音频DiT分别去噪后,通过对应的VAE解码器生成视频帧序列和音频波形。 设计理由: ...

2026-04-19