BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps #音乐生成 #自回归模型 #实时处理 #数据集 #音频生成 🔥 评分:8.5/10 | arxiv 👥 作者与机构 根据论文标题页信息,作者为: 第一作者:Lekai Qian 通讯作者:Ziyu Wang (根据常规学术论文作者排序惯例推断,论文未明确标注) 其他作者:Haoyu Gu, Jingwei Zhao 论文未明确标注作者所属机构。根据arXiv论文的常见情况及作者姓名推测,作者可能来自中国的高校或研究机构(如清华大学、北京大学、中国科学院等),但论文正文中未提供明确信息。 💡 毒舌点评 亮点:把钢琴卷帘(Piano-roll)这种“笨重”的2D表示,巧妙地“压扁”成按拍(beat)分组的稀疏token序列,既保留了时间网格的规整性,又获得了堪比事件序列的紧凑性,这个“鱼与熊掌兼得”的思路非常优雅。 槽点:模型规模(150M)相对保守,在当今大模型时代略显“迷你”,限制了其性能上限和作为通用音乐表示的潜力;此外,实验主要集中在西方音乐传统(MIDI, 4/4拍),对其他音乐文化的普适性有待验证。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接 (https://anonymous.4open.science/w/BEAT-349F/),表明代码将开源。 模型权重:论文提及了在线Demo页面,暗示预训练模型权重可能随代码一同发布。 数据集:使用了公开的Lakh MIDI Dataset和MuseScore Collection,但经过了特定的过滤和处理。论文未提及发布新的数据集。 在线 Demo:提供了匿名Demo页面 (https://anonymous.4open.science/w/BEAT-349F/) 供体验。 依赖的开源项目:论文中提及了MusPy(用于评估)、LLaMA(作为模型架构参考)等开源工具。 📌 核心摘要 本文针对符号音乐生成中主流的事件序列(event-based)tokenization方法隐含处理时间规律、导致模型需额外学习时间网格的问题,提出了一种名为BEAT的新型网格化tokenization框架。其核心思想是将音乐在时间上均匀离散化为“拍”(beat)作为基本单位,将每拍内每个音高的活动状态(起音、持续、静音)编码为一个“模式”(pattern)令牌,并与音高、力度信息组合,形成按拍组织的稀疏令牌序列。这种方法显式地融入了音乐时间均匀性的归纳偏置。实验表明,在音乐续写和实时伴奏生成任务上,BEAT在节奏一致性(JS GC)、分布相似性(FMD)等客观指标和主观听感评价上均优于REMI、Compound Word等基线方法。进一步分析显示,BEAT表示更紧凑、具有更好的可压缩性,能更有效地捕捉长程结构,并天然支持实时流式生成。该工作为符号音乐表示学习提供了一个兼具理论优雅性和实践有效性的新方向。 🏗️ 模型架构 BEAT的核心并非一个全新的模型架构,而是一种新的音乐表示(tokenization)方案,该方案可无缝接入标准的自回归Transformer语言模型。 完整输入输出流程: 输入:多轨符号音乐(如MIDI),被表示为三维张量 (轨道数 P, 时间步数 T) 的钢琴卷帘矩阵,每个元素取值 {0(静音), 1(起音), 2(持续)},并附带力度信息。 编码阶段(BEAT Encoding): 步骤1(拍内编码):以固定时间步长 τ(默认为4个十六分音符,即一拍)将钢琴卷帘分割为 N 个“拍段” B(i)。对于每个拍段内的每个音高 p,将其 τ 个时间步的状态向量通过三进制转整数编码为一个“模式令牌” PAT_x。同时,计算该音高在此拍内的平均力度,编码为“力度令牌” VEL_x。 步骤2(拍级组装):识别当前拍段内的活跃音高集合,按音高降序排列。第一个音高使用绝对音高索引作为“音高令牌” PIT_d,后续音高使用与前一音高的相对音程差作为音高令牌。这样,一个拍的内容被表示为一组 (PIT_d, PAT_s, VEL_v) 三元组的序列。若该拍全休止,则用一个特殊的 REST 令牌表示。 步骤3(序列构建):在每个拍的序列前插入 BEAT 令牌作为分隔符。在每小节开始处插入 BAR 令牌。对于多轨音乐,在每个拍的轨道内容前插入乐器令牌 INS_x。最终,所有拍的序列按时间顺序拼接,形成完整的令牌序列。 建模阶段:将上述令牌序列输入标准的16层Transformer解码器(150M参数,遵循LLaMA架构),使用自回归方式建模令牌的联合概率分布,训练时最小化交叉熵损失。 输出与解码:模型自回归生成令牌序列。解码器通过识别绝对/相对音高令牌来重建拍段和钢琴卷帘,最终还原为可播放的符号音乐。 关键设计选择理由: ...

2026-04-22 · 更新于 2026-06-15 · 2 min · 335 words

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #生成模型 #数据集 #音频生成 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Mason L. Wang (MIT CSAIL) 通讯作者:Cheng-Zhi Anna Huang (MIT CSAIL) 其他作者:无 💡 毒舌点评 亮点:这篇论文最妙的地方在于,它没有去折腾音频波形本身,而是聪明地给音乐模型的“脑内活动”(潜在表示)做了一次傅里叶体检,然后像调EQ一样去调节音乐在不同时间尺度上的特征,思路非常清奇且有效。槽点:目前这“脑内手术”需要专门训练一套模型才能做,还不能直接给一个现成的音乐生成模型(如MusicLM)装上这个“傅里叶控制插件”,限制了其即插即用的潜力。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/maswang32/latentfouriertransform/。包含模型训练、推理、混合、可解释性分析代码,以及所有基线实现和实验管道。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开数据集MTG-Jamendo、GTZAN和Maestro。 在线Demo:论文中未提及。 📌 核心摘要 这篇论文旨在解决现有音乐生成模型难以对任意时间尺度上的音乐模式进行精确控制的问题。作者提出了潜在傅里叶变换(LatentFT) 框架,其核心是将离散傅里叶变换应用于由扩散自编码器编码得到的潜在向量序列,从而得到“潜在频谱”。通过在训练过程中对潜在频谱进行随机频率掩码,迫使解码器学会从部分频率信息中重建音乐,使得训练后的模型潜在空间对频率域操作具有鲁棒性。这使得用户可以在推理时,通过指定潜在频率(对应音乐模式的时间尺度)来生成保留特定尺度特征的变体,或将两首乐曲按不同时间尺度进行混合。实验表明,LatentFT在条件生成和混合任务的保真度与质量上均优于多个基线方法。用户研究也证实了其生成质量和混合效果更受青睐。此外,论文还展示了隔离特定潜在频率以“聆听”对应音乐模式,以及分析不同音乐属性(如流派、和声、节奏)在潜在频谱中分布的能力。该工作为生成模型引入了一种直观、连续的频率域控制维度,推动了更可解释、可交互的音乐生成模型的发展。其局限性在于需要端到端训练特定模型,且目前主要应用于音乐领域。 🏗️ 模型架构 LatentFT 是一个端到端的编码器-解码器架构,其完整流程如下: 编码阶段: 输入:音频波形或梅尔频谱图 x₀。 编码器:将 x₀ 映射为一个时间序列的潜在向量 z ∈ R^(C'×T')。论文尝试了三种编码器:帧级MLP、1D U-Net(基于梅尔谱)和基于Descript音频编解码器(DAC)的编码器+1D U-Net。 潜在傅里叶变换:对潜在序列 z 沿时间轴应用离散傅里叶变换(DFT),得到潜在频谱 Z ∈ C^(C'×K)。Z 的频率轴称为潜在频率轴,其上的频率(Hz)对应于潜在序列振荡的速率,即音乐模式的时间尺度。 频率掩码(训练时随机,推理时用户指定): 采样一个随机阈值 η 和一组频率分箱得分 s(通过相关矩阵 K 生成,使相邻分箱得分相关)。 生成二进制掩码 M,保留得分高于阈值的分箱。 应用掩码:Z_masked = Z ⊙ M。 逆变换:对掩码后的频谱 Z_masked 应用逆DFT,得到频率掩码后的潜在序列 z_masked。 解码/生成阶段: 解码器:一个基于扩散模型的U-Net。其输入是:(a) 频率掩码后的潜在序列 z_masked(作为条件),(b) 带噪的梅尔频谱图 x_τ(训练时为加噪的真实数据,推理时为随机噪声),(c) 噪声水平 τ。 输出:预测的干净梅尔频谱图 x̂₀。最终通过BigVGAN声码器将梅尔谱转换为音频波形。 关键设计理由: 使用扩散自编码器:结合了表示学习(编码器)和强大的生成能力(扩散解码器),且其潜在表示具有语义意义。 在潜在空间而非音频空间做傅里叶变换:音频的频谱对应音色,而潜在序列的频谱对应音乐模式的时间变化(如和弦变化、节奏型)。这使得控制直接作用于音乐结构。 训练时频率掩码:这是核心创新。它迫使解码器学会从不完整的频率信息中连贯地重建音乐,从而使潜在空间对频率域操作(如掩码、混合)变得鲁棒。没有这一步,直接对预训练模型的潜在表示进行频率滤波会导致生成质量严重下降(如消融实验所示)。 相关分组与对数频率缩放:生成连续的掩码区域,更符合用户实际操作习惯,并平衡了1/f频谱中高低频能量不均的问题。 💡 核心创新点 潜在傅里叶变换(Latent Fourier Transform)的概念: ...

2026-04-21 · 更新于 2026-06-15 · 2 min · 342 words

ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling #音频生成 #多模态模型 #扩散模型 #基准测试 🔥 评分:9.2/10 | arxiv 👥 作者与机构 第一作者:Jianxuan Yang(小米 MiLM Plus) 通讯作者:Jian Luan(小米 MiLM Plus) 其他作者: Xinyue Guo(小米 MiLM Plus) Zhi Cheng(小米 MiLM Plus,武汉大学) Kai Wang(小米 MiLM Plus,武汉大学) Lipan Zhang(小米 MiLM Plus) Jinjie Hu(小米 MiLM Plus) Qiang Ji(小米 MiLM Plus) Yihua Cao(小米 MiLM Plus) Yihao Meng(小米 MiLM Plus,武汉大学) Zhaoyue Cui(小米 MiLM Plus,武汉大学) Mengmei Liu(小米 MiLM Plus) Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。 槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。 ...

2026-04-19 · 更新于 2026-06-15 · 2 min · 370 words

Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram

📄 Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram #信号处理 #时频分析 #音频生成 #音频理解 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:David Valdivia(法国图卢兹大学 IRIT 实验室) 通讯作者:Cédric Févotte(法国图卢兹大学 IRIT 实验室) 其他作者:Elsa Cazelles(法国图卢兹大学 IRIT 实验室) 💡 毒舌点评 亮点:这篇论文巧妙地将最优传输(OT)理论“嫁接”到经典的时频分析难题上,为解决Gabor-Heisenberg不确定性原理带来的分辨率权衡问题提供了新颖且数学严谨的视角。其设计的结构化代价矩阵和对应的无熵正则化UOT算法是两大技术亮点,显著提升了融合质量和计算效率。 槽点:方法虽然精巧,但更像一个“后期处理工具”,而非端到端的解决方案。它严重依赖于输入谱图的质量,且目前主要聚焦于提升分辨率这一单一目标,对于更复杂的音频任务(如去噪、分离)的集成路径尚不明确。此外,算法虽比传统OT快,但面对超长音频或实时处理场景,其迭代优化的本质可能仍是瓶颈。 🔗 开源详情 代码:论文中提到“The code used to reproduce the figures and experiments is available online.” 并提供了一个GitHub链接:https://github.com/davidvaldiviad/fusion-ot。代码已开源。 模型权重:不适用。本文提出的是优化算法,而非可训练的模型。 数据集:实验使用了公开的 PTDB-TUG 语音数据库 [pirker2011pitch]。合成数据由作者根据描述生成。 预训练权重:不适用。 在线 Demo:论文中未提及。 论文中引用的开源项目:提到了 POT (Python Optimal Transport) 库 [POT] 用于对比实验。 📌 核心摘要 核心问题:短时傅里叶变换(STFT)生成的谱图受制于不确定性原理,无法同时获得优异的时间和频率分辨率。传统融合方法(如几何平均)要求输入谱图网格对齐,且性能有限。 核心方法:本文提出一种基于最优传输(OT)的谱图融合方法。将不同分辨率的谱图视为时频平面上的非负能量分布,通过计算它们的非平衡最优传输(UOT)重心来生成一个“超分辨率”谱图。关键创新包括:1) 设计了结构化代价矩阵,将能量传输约束在时间或频率轴的相邻点,符合时频物理意义;2) 提出了一个块状Majorization-Minimization(MM)算法,可直接求解无熵正则化的UOT重心问题,避免了传统方法因熵正则化导致的谱图模糊。 主要发现:在合成信号和真实语音上的实验表明,该方法能有效结合输入谱图的最佳特性:既保留了长窗口谱图的高频率分辨率,又继承了短窗口谱图的高时间分辨率。在频率定位、时间定位和谐波浓度等多项指标上,均优于输入谱图及几何平均基线方法,且“不同网格”设置在保持性能的同时大幅降低了计算成本。 实际意义:为音频和信号处理领域提供了一种强大的后处理工具,可用于生成更清晰、信息更丰富的时频表示,对语音分析、音乐信息检索、声学事件检测等依赖高质量谱图的任务具有直接应用价值。 ...

2026-04-19 · 更新于 2026-06-15 · 3 min · 508 words

Four Decades of Digital Waveguides

📄 Four Decades of Digital Waveguides #音频生成 #信号处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Pablo Tablas de Paula(推断:可能为英国伦敦大学金史密斯学院或相关机构,论文未明确提供机构信息) 通讯作者:Joshua D. Reiss(英国伦敦大学金史密斯学院, Centre for Digital Music) 其他作者:Julius O. Smith(美国斯坦福大学, CCRMA - 中心计算机研究用于声学与音乐研究),Vesa Välimäki(芬兰阿尔托大学, 艺术、设计与建筑学院) 注:以上机构信息基于该领域知名学者的常见隶属关系及论文作者公开信息推断。提供的论文摘要中未包含明确的机构列表。 💡 毒舌点评 亮点是作为一篇“编年史”式的综述,它清晰梳理了数字波导这一经典而高效的物理建模技术四十年的演进脉络,特别是将其与现代机器学习优化方法结合的前沿方向,为老牌技术注入了新活力。槽点在于,对于一篇旨在“深度分析”的论文请求,这篇摘要本身提供的信息过于概括,缺乏具体模型细节、实验数据和对比结果,更像是一个邀请你阅读全文的“预告片”,而非完整的技术报告。 🔗 开源详情 论文中未提及任何具体的代码、模型权重或数据集的开源计划。数字波导技术本身有许多著名的开源实现,例如: Synthesis ToolKit (STK):由Julius O. Smith等人开发,包含多种物理建模乐器的C++类库。 FAUST:一种专门用于音频信号处理的语言,其编译器可以高效生成数字波导结构的代码。 论文中讨论的基于机器学习的优化方法,其代码通常由对应的研究团队在论文发表时开源(如GitHub)。 📌 核心摘要 这篇论文旨在全面回顾数字波导物理建模技术自诞生以来四十年的发展历程、核心应用与最新进展。它要解决的核心问题是,如何在保证物理模拟准确性的同时,实现声波传播模拟的高效计算,以满足实时音频处理(如虚拟乐器、混响)的需求。论文阐述了数字波导的核心方法,即利用延迟线和滤波器构建的高效网络来模拟行波,并对比了其与通用有限差分法在计算效率上的巨大优势。主要发现包括,数字波导技术已成功应用于乐器合成、人声建模和人工混响等多个领域,并且通过结合经典的、进化的以及新兴的神经网络优化方法(如可微分数字信号处理),其参数优化能力得到了显著增强,使其能更灵活地匹配目标声学特性。实际意义在于,该技术为实时、高保真的物理建模音频应用提供了坚实的理论基础和实践工具。局限性在于,作为一篇综述,它并未提出全新的波导结构,而是侧重于总结和整合现有技术,且对最新机器学习优化方法的讨论可能尚处初步阶段。 🏗️ 模型架构 由于本文是一篇综述论文,它并不提出一个单一的、具体的“模型架构”,而是系统性地描述了数字波导(Digital Waveguide, DWG) 这一建模范式及其各种变体和应用。其核心思想和典型架构如下: 核心原理与基本单元: 输入:激励信号(例如,拨弦的脉冲、吹管的噪声)。 核心组件:一个基本的数字波导段由一对反向传播的延迟线(通常长度相等)和位于其连接点的散射 junction(或滤波器)构成。延迟线模拟声波在介质中的传播时间,散射节点模拟波在边界处的反射和透射。 输出:在波导的某个特定点(通常是散射节点)提取信号作为合成声音。 典型应用架构示例(如Karplus-Strong弦模型): 激励生成:生成一个短促的噪声脉冲或采样作为初始扰动。 波导环路:信号进入一个闭合的波导环路,环路总延迟时间对应于音符的基频周期(延迟长度 = 采样率 / 基频)。 滤波与衰减:在环路中插入一个低通滤波器,模拟弦振动能量在高频的耗散(即音色变暗)和整体幅度衰减。 循环与输出:信号在环路中循环,每次循环都因滤波而衰减,形成自然的衰减振荡波形。从环路中持续输出合成音频。 高级扩展: ...

2026-04-19 · 更新于 2026-06-15 · 1 min · 190 words

Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

📄 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery #音频生成 #多模态模型 #基准测试 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kunlin Wu(香港科技大学(广州)) 通讯作者:根据论文署名和致谢信息,推测通讯作者可能为 Xiaofeng Liu(香港科技大学(广州)),论文中未明确标注。 其他作者: Yanning Wang(香港科技大学(广州)) Haofeng Tan(南卡罗来纳大学,美国) Boyi Chen(香港科技大学(广州)) Teng Fei(坎特伯雷大学,新西兰) Xianping Ma(西南交通大学,中国) Yang Yue(香港科技大学(广州)) Zan Zhou(北京邮电大学,中国) Xiaofeng Liu(香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文想象力爆棚,硬是把“看卫星图猜声音”这个看似不着边际的想法,做成了一个有模有样的系统任务,还搭了个大规模数据集,属实是“跨模态整活”的典范。槽点:方法上有点“拼积木”的意思,依赖现成的视觉模型、语言模型和音频生成模型,自己核心的“对齐”模块虽然巧妙但略显单薄,像是在给一堆大佬打补丁,创新性更多体现在任务定义和工程整合上。 🔗 开源详情 代码:论文中明确提到项目主页和源代码地址为:https://github.com/Blanketzzz/Geo2Sound。代码已开源。 模型权重:论文中未明确说明是否公开预训练模型权重(如对齐模块的MLP权重)。 数据集:论文中构建的 SatSound-Bench 数据集是核心贡献之一,但文中未明确说明该数据集是否公开提供下载。从描述看,它整合了实地录制数据和多个公共数据集,其分发可能涉及版权和许可问题。 预训练权重:方法依赖多个外部预训练模型,包括:DINOv3(视觉)、GPT-5.2(文本生成)、Make-An-Audio 2(音频生成)、CLAP(音频编码)。论文中未提供这些模型的权重。 在线 Demo:论文中未提及是否有在线演示。 依赖的开源项目:论文中明确引用的开源项目/模型包括:DINOv3, GPT-5.2(推测), Make-An-Audio 2, CLAP, AudioLDM/LDM2, Auffusion, Tango2, EzAudio, AudioX, MeanAudio, Freesound, iNaturalist Sounds, SoundingEarth。 📌 核心摘要 这篇论文提出了一个名为 Geo2Sound 的新任务和框架,旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战:缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上,它设计了一个三阶段流水线:首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性(如植被覆盖率、建筑密度);然后利用大语言模型为同一场景生成多个声学上合理的文本描述(语义假设扩展),并用文本到音频模型生成对应的候选音频;最后训练一个地理-声学对齐模块,将地理属性投影到音频嵌入空间,从候选集中选择与地理环境最匹配的音频。主要发现是,该框架在自建的 SatSound-Bench 基准(包含超过2万对数据)上取得了SOTA性能,FAD指标达到1.765,比最强基线提升50%,并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型(VLM, T2A),且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。 ...

2026-04-19 · 更新于 2026-06-15 · 3 min · 525 words

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

📄 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence #音频生成 #音视频 #多模态模型 #扩散模型 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者: Zhenghao Zhang (阿里巴巴云计算) Xiangyu Meng (阿里巴巴云计算) Litao Li (阿里巴巴云计算) Ziying Zhang (阿里巴巴云计算) Siyu Zhu (复旦大学) 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。 💡 毒舌点评 亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。 槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。 🔗 开源详情 代码:论文中提到“Please view the build logs for errors. Generated by L A T E xml.” 并指向一个GitHub issue页面,暗示代码可能计划开源或部分开源,但未提供明确的GitHub仓库地址。论文中未明确提供开源代码链接。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文构建了PAV数据集(46万片段),但未提及是否公开该数据集。 预训练权重:模型从预训练的Ovi检查点初始化。 在线Demo:论文中未提及在线演示地址。 引用的开源项目:论文引用了多个开源工具和模型,包括:Qwen3-VL、SAM2、CoTracker3、Ovi、CLIP、CLAP、AudioBox-Aesthetics、MANIQA、MUSIQ、CAV-MAE Sync等。 📌 核心摘要 本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。 ...

2026-04-19 · 更新于 2026-06-15 · 3 min · 531 words