Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation

Tue, 12 May 2026 00:00:00 +0000

📄 Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation

#多模态生成 #音视频同步 #语音-音效协调 #流匹配 #扩散模型

✅ 6.5/10 | 前30% | #音视频生成 | #流匹配 | #多模态生成 #音视频同步 | arxiv

学术质量 6.5/8 | 影响力 0.7/2 | 可复现性 0.5/1 | 置信度高

👥 作者与机构

第一作者：Shihao Cheng， Jiaxu Zhang（论文标注为共同第一作者 ⋆）
通讯作者：Zhigang Tu， Xuelong Li（论文标注为共同通讯作者 ‡）
作者列表：Shihao Cheng, Jiaxu Zhang, Quanyue Song, Shansong Liu†, Zhizhi Guo, Xiaolei Zhang, Chi Zhang, Xuelong Li‡, Zhigang Tu‡（所有作者的具体所属机构在论文正文中未详细说明，仅在脚注中标注贡献角色）

💡 毒舌点评

该工作精准定位了人类中心音视频生成中“语音压制音效”和“运动-音画不同步”两大痛点，并提出了一套设计感强、工程化程度高的框架（语义引导协调+双向强制）。尤其在音频分支的精细解耦与控制上展现了巧思，实验结果在音频保真度和同步性指标上表现突出。然而，其“SOTA”宣称在更广阔的生态中显得单薄：视觉美感仍落后于参数量更大的LTX-2，且完全缺乏与Sora 2、Veo 3等工业级闭源模型的直接对比分析。其创新的“双向强制”策略虽有效，但根源思想并非首次提出，且实现细节（如权重设定）略显启发式。

📌 核心摘要

问题：人类中心视频生成面临两大挑战：(1) 音频内干扰：语音与音效在同一音频流中混合，导致语音成分主导并掩盖环境音（如“边弹边唱”场景）；(2) 跨模态失准：运动与音频（语音和音效）在时间上不同步，现有方法仅通过隐式交叉注意力连接，缺乏显式的时间对齐约束。
方法核心：本文提出Unison，一个双分支（视频分支基于Wan2.2-5B，音频分支增强自MMAudio+Zipformer）框架。核心创新是两个协调策略：
- 音频内：语义引导协调策略：通过双向音频交叉注意力（Bi-ACA） 实现语音流与音效流的交互细化；通过语义条件门控（SCG） 根据文本语义动态调节两者的交互强度，解决语音主导问题。
- 音视频间：双向跨模态强制策略：训练时为视频和音频分支独立采样去噪时间步（|tv - ta| ≤ Δmax），让更“干净”的模态通过损失权重引导较“嘈杂”的模态，从而强制建立强时间对齐。采用三阶段渐进式训练以保证稳定。
与已有方法相比新在哪里：不同于多数方法仅依赖隐式交叉注意力进行全局对齐，Unison进行了两项显式设计：(1) 在音频生成源头将语音与音效解耦并协调，从根本上避免干扰；(2) 在训练目标上引入基于时间步差的方向感知损失权重，将跨模态对齐从架构隐式连接升级为训练过程的显式强制，这是对传统同步训练范式的直接改进。
主要实验结果：在1000个样本的测试集上，Unison在音频感知质量（PQ=6.34）和内容有用性（CU=5.61）上优于所有对比的开源模型。在语音识别准确性（WER=0.22）和音画时间偏移（DS=0.08）上取得最佳。其跨模态语义一致性（CLAP AV=0.91）也最优。消融实验表明，所提出的语义引导协调策略（HGHS） 和双向跨模态强制策略（CMFS） 对提升音频质量和同步性至关重要。在用户研究中，Unison在语音-音效和谐度与运动-音频对齐度上排名第一。
实际意义：推动了更真实、更协调的人类中心多模态内容生成，在虚拟人、数字内容创作、交互式媒体等领域有应用潜力。
主要局限性：(1) 论文未提及对更复杂场景（如多人物、多重音源）的评估；(2) 其生成的视频在视觉美学（VA=4.02）上仍落后于参数量近4倍的LTX-2（VA=4.15）；(3) SCG机制完全自动，缺乏用户可控接口，其泛化性和可控性有待分析。

🔗 开源详情

代码：论文中提及“代码和模型权重将在论文接受后公开发布”，但未提供任何具体的GitHub、Gitee等仓库链接。
模型权重：论文中提及“代码和模型权重将在论文接受后公开发布”，但未提供任何具体的HuggingFace、ModelScope或其它下载链接。
数据集：论文中提及训练使用了多个开源和内部数据集，但未提供数据集本身的下载链接或开源仓库地址。训练语料包括：
- 音视频数据集：OpenHumanVid， HDTF， VFHQ， CelebV-Text， VGGSound。
- 纯音频数据集：YouTube-8M， AudioSet， WavCaps， VidMuse， Yue collection，以及内部语音数据。
Demo：论文中未提及在线演示链接。
复现材料：论文中提供了详细的训练配置（如硬件、学习率、批大小、训练阶段等），但完整的复现材料（如训练脚本、完整配置文件、检查点）需待代码开源后获取。
论文中引用的开源项目：
- Flow Matching: lipman2023flowmatchinggenerativemodeling (论文中未提供链接)。
- Diffusion Forcing: chen2024diffusionforcingnexttokenprediction (GitHub: https://github.com/microsoft/DiffusionForcing)。
- Wan2.2: wan2025wan (论文中未提供链接，指代特定版本的视频生成模型)。
- MMAudio: cheng2025taming (论文中未提供链接，指代特定音频生成模型)。
- Zipformer: zhu2025zipvoice (论文中未提供链接，指代特定语音模型)。
- Mel-Roformer: wang2024melroformervocalseparationvocal (论文中未提供链接，指代音频分离模型)。
- Whisper-large-v3: radford2023robust (论文中未提供链接，指代OpenAI的语音识别模型)。
- CLAP: elizalde2023clap (论文中未提供链接)。
- VideoCLIP-XL-V2: wang2024vidprom (论文中未提供链接)。
- ImageBind: girdhar2023imagebind (论文中未提供链接)。
- SyncNet: Prajwal_2020 (论文中未提供链接)。
- Synchformer: iashin2024synchformer (论文中未提供链接)。
- LAION-Aesthetic Predictor V2.5: schuhmann2022laion (论文中未提供链接)。
- DINOv3: simeoni2025dinov3 (论文中未提供链接)。
- Audiobox: vyas2023audiobox (论文中未提供链接)。

🏗️ 方法概述和架构

整体流程概述 Unison是一个端到端的文本（+转录文本）到音视频生成框架。输入文本描述（κ）和语音转录（τ）及其特征（c_a, c_s），分别驱动视频分支和音频分支生成对应的视频帧序列（ν）和音频波形（α）。两个分支通过帧级双向交叉注意力持续交换信息，实现同步生成。训练分为两阶段：先单独训练音频分支，再联合训练音频分支与融合模块（视频骨干网络冻结）。

主要组件/模块详解

语义引导协调策略：
- 功能：解决音频流内部语音（speech）与音效（sound-effect）的相互干扰问题，确保两者和谐共存。
- 内部结构/实现：
  - 解耦与监督：训练时，源音频通过Mel-Roformer预先分离为语音（z1sp）和音效（z1sfx）分量，作为独立的监督信号。音频分支被设计为并行生成这两个流的潜在表示（hsp, hsfx）。
  - 双向音频交叉注意力（Bi-ACA）：在每个Transformer块内，语音和音效的潜在表示被沿序列维度拼接（hjoint），共享自注意力以建模全局上下文。为区分模态，引入模态特定的可学习偏置。之后，通过双向跨注意力（公式6）实现两个流之间的相互细化。最后，表示被分裂回独立流（公式5）。此“交互-合并-分裂”循环允许它们从共享上下文受益，同时保持独立特性。
  - 语义条件门控（SCG）：利用文本特征（c_s, c_a，通过平均池化获得）通过一个MLP和Sigmoid函数预测两个门控系数[gs^p, gs^fx]（公式7）。这些系数作为“语义阀门”，动态调节跨模态注意力更新的强度。在语音主导场景（c_s强），gs^p被抑制以保护语音纯净度；在复杂音效场景（c_a强），gs^fx被增强以丰富非语音部分。门控系数被约束在[0,1]之间。
- 输入输出：输入为音频流的潜在表示、文本语义特征；输出为经过交互平衡后的语音和音效特征，用于计算各自的流匹配损失。
双向跨模态强制策略：
- 功能：解决视频运动与整体音频在时间上不同步的问题，强制建立严格的帧级对应关系。
- 内部结构/实现：
  - 异步去噪训练：与传统使用相同去噪时间步（t）训练不同，本策略为视频分支和音频分支分别采样独立的时间步tv和ta，且满足|tv - ta| ≤ Δmax（Δmax=0.25）。音频分支的时间步被映射到[0,1]区间。
  - 方向引导与加权损失：定义方向指示符 d = I[ta < tv]。当d=1（音频更干净）时，视频分支损失权重提升为wv = 1 + λd；反之（d=0，视频更干净），音频分支损失权重提升为wa = 1 + λ(1-d)。其中λ=0.5为引导强度（公式8）。总损失为方向加权的视频与音频分支流匹配损失之和（公式9）。
  - 渐进式训练策略：为稳定训练，采用三阶段课程：(1) 同步预热（tv=ta）；(2) 增量解耦（以概率pind(s)激活独立采样，并约束时间步差≤0.25）；(3) 完全独立（解除约束）。从第二阶段开始引入方向感知损失重加权。
- 输入输出：输入为分别加噪的视频和音频潜在表示、时间步；输出是各分支的去噪预测及方向感知的加权损失。
双分支架构与融合：
- 功能：实现视频与音频的联合生成与交互。
- 内部结构/实现：视频分支（29层Transformer）和音频分支（23层Transformer，集成Zipformer以增强语音生成）基于Transformer构建。两者通过帧级双向交叉注意力连接，视频帧的特征可作为查询去检索音频特征，反之亦然，实现持续的跨模态信息交换。关键细节：在联合训练阶段，仅音频分支和融合模块（双向交叉注意力、LayerNorm）被优化，视频骨干网络（Wan2.2-5B）被冻结。
- 输入输出：输入为文本特征和初始噪声；输出为最终生成的视频帧和音频波形。

组件间的数据流与交互 文本特征（κ, τ → c_a, c_s）分别作为条件送入视频和音频分支。在音频分支内部，文本特征首先通过SCG生成门控系数，控制Bi-ACA模块中语音流与音效流之间的信息流动强度。处理后的语音与音效特征在Transformer块内与视频特征通过双向交叉注意力不断交换帧级信息。在整个训练过程中，双向强制策略通过为两个分支采样不同时间步并计算加权损失，从优化目标上强制它们利用对方信息，强化交互依赖。

关键设计选择及动机

选择解耦音频生成：动机是明确解决“语音主导”问题，让模型能独立、高保真地合成语音和音效，再通过受控交互融合，这比让模型隐式学习更可控。
选择异步强制对齐：动机是现有方法的交叉注意力对齐过于隐式和弱。通过创造模态间的“信息势差”（噪声水平不同），强制模型学习利用一方信息去校正另一方，从而建立更牢固的时间对齐。
选择渐进式训练：动机是直接进行异步训练会导致优化不稳定（由于显著的跨模态噪声差异和引导方向d的随机波动），课程学习能平滑地引入复杂性。

架构图说明 图2：Unison框架概览。该图展示了双分支架构。左侧为视频分支，右侧为音频分支。音频分支内部显示了语义引导协调策略：语音流（Speech）和音效流（SFX）并行，通过Bi-ACA模块进行双向交叉注意力交互，并在交互后通过SCG门控调节。两个主分支之间通过蓝色的双向箭头（帧级双向交叉注意力）连接，表示持续的跨模态信息交换。整个系统接受文本和转录文本作为输入，联合生成视频和音频。

图3：双向跨模态强制策略。该图形象地说明了训练策略。左右两侧分别代表视频和音频分支，各自采样不同的噪声时间步（t_v和t_a）。当音频时间步更小（更干净）时，权重w_v增加，强化从音频到视频的信息引导（蓝色箭头加粗）；反之亦然。下方的三阶段曲线图展示了从同步到完全独立的渐进训练过程，确保优化稳定性。

💡 核心创新点

针对人类中心音视频生成中的双重协调问题提出系统性解决方案：明确识别并针对“音频内语音-音效干扰”和“跨模态运动-音频不同步”两个具体且关键的挑战进行设计，而非笼统地提升生成质量。
提出语义引导的音频协调策略：通过Bi-ACA实现语音与音效的交互细化，并用SCG机制根据文本语义动态控制这种交互，实现了对音频混合比例的智能、可控调节。这比简单的音量混合或隐式学习更先进。
引入双向跨模态强制策略进行时间对齐：将Diffusion Forcing思想创造性地应用于多模态生成，通过训练时引入异步去噪时间步和方向感知的损失加权，创造了模态间显式的引导关系，从而强制模型学习强时间相关性，这是对传统同步训练范式的重要改进。

📊 实验结果

定量对比（表1）：

Type	Model	VA ↑	ID ↑	PQ ↑	CU ↑	WER ↓	TA ↑	TV ↑	AV ↑	LSE-C ↑	LSE-D ↓	DS ↓
TI2AV	Universe-1	3.77	4.42	5.95	5.21	0.52	3.37	25.57	0.62	2.32	–	0.50
TI2AV	Ovi	3.94	4.42	6.25	5.51	0.43	3.48	25.86	0.87	2.81	9.12	0.12
TI2AV	UniAVGen	4.02	4.46	6.18	5.48	0.33	3.42	25.99	0.81	2.89	9.49	0.15
TI2AV	MOVA	4.01	4.52	6.28	5.52	0.29	3.58	25.97	0.88	3.24	7.92	0.13
TI2AV	LTX-2	4.15	4.61	6.30	5.58	0.25	3.65	26.24	0.89	3.45	7.62	0.10
TI2AV	Unison (Ours)	4.02	4.53	6.34	5.61	0.22	3.61	26.17	0.91	3.30	7.88	0.08
T2AV	JavisDiT	3.29	4.52	4.83	3.73	1.81	3.53	24.31	0.49	1.81	–	0.53
T2AV	Ovi	4.22	4.51	6.08	5.65	0.18	3.55	25.99	0.83	3.47	8.05	0.08
T2AV	LTX-2	4.63	4.68	6.12	5.72	0.11	3.74	26.35	0.81	3.62	7.75	0.07
T2AV	Unison (Ours)	4.51	4.59	6.17	5.78	0.09	3.62	26.21	0.86	3.55	7.95	0.06

关键结论：

在音频保真度上，Unison在TI2AV设置中取得了最佳的PQ（6.34）和CU（5.61）分数。
在语音-文本对齐上，Unison在两个设置中均取得了最低的WER（TI2AV: 0.22, T2AV: 0.09），显著优于基线。
在跨模态一致性上，Unison的CLAP分数（AV）在TI2AV（0.91）和T2AV（0.86）中均为最高，表明音视频语义对齐最好。
在音画时间同步上，Unison在两个设置中取得了最佳的DS分数（TI2AV: 0.08, T2AV: 0.06），意味着时间偏移最小。
在视频美学（VA）上，Unison在TI2AV中（4.02）与多数基线持平但略逊于LTX-2（4.15），在T2AV中（4.51）也低于LTX-2（4.63）。

消融研究（表2，关键结果）：

移除语义引导协调策略（w/o HGHS）导致PQ从6.34大幅下降至6.12，证实了其对音频质量的核心作用。
移除双向跨模态强制策略（w/o CMFS）导致DS分数从0.08急剧恶化至0.19（越差），LSE-C从3.30降至3.02，表明这是保证时间同步的关键模块，且其影响会波及到视频质量（VA从4.02降至3.91）。

Settings	VA ↑	PQ ↑	LSE-C ↑	DS ↓
w/o HGHS	3.99	6.12	3.08	0.15
w/o Bi-ACA	4.00	6.20	3.18	0.11
w/o SCG	4.01	6.21	3.22	0.10
w/o CMFS	3.91	6.24	3.02	0.19
Ours	4.02	6.34	3.30	0.08

训练策略消融（表3，关键结果）：

同步训练（SyncOnly）和完全异步训练（IndepOnly）的效果均不如采用三阶段渐进式训练（PF）的Unison。PF在VA、PQ、LSE-C和DS上全面最优，证明了渐进式课程学习对于稳定优化和最终性能的重要性。

Settings	VA ↑	PQ ↑	LSE-C ↑	DS ↓
SyncOnly	3.90	6.10	3.12	0.17
IndepOnly	3.95	6.18	3.28	0.14
PF(Ours)	4.02	6.34	3.30	0.08

用户研究：论文进行了用户研究（10个样本，25名参与者），评估唇语-语音同步、语音-音效和谐度、运动-音频对齐度。如图9所示，Unison在语音-音效和谐度和运动-音频对齐度上得分最高，在唇语-语音同步度上仅次于LTX-2，但在综合指标上获得了最高的整体偏好。

图6：语义引导音频协调策略消融实验。该图通过海滩场景展示了不同模块的效果。缺少HGHS/Bi-ACA/SCG的变体，其音频频谱图显示语音波峰过度占据空间，环境音效（海浪）被严重抑制。而完整的Unison模型生成的频谱图更均衡，体现了该策略对平衡语音和音效的有效性。

图7：双向跨模态强制策略消融实验。该图以钢琴弹奏场景为例。移除跨模态强制（w/o CMFS）后，生成的音频音符起始点（onset）与手指动作在时间上出现明显错位（左图）。启用强制后（Ours），音符的起振和释音与手部动作紧密同步（右图），直观证明了该策略对改善时间对齐的贡献。

图8：SCG门控行为分析。该图从三个维度分析了SCG的动态特性：(a) 随模型深度增加，门控值gs^p和gs^fx的极化程度（差异）增大，说明浅层处理粗结构，深层进行精细语义调控；(b) 随着去噪时间步减小（t→0），门控差异增大，说明在内容清晰的阶段，门控机制更活跃地进行平衡；(c) 在不同语义类别上（如体育解说、音乐、自然环境），gs^p和gs^fx的平均值呈现不同模式，证明SCG能根据内容自适应调整语音和音效的比例。

🔬 细节详述

训练数据：
- 音视频联合训练数据：来自OpenHumanVid, HDTF, VFHQ, CelebV-Text, VGGSound等多个开源数据集。总规模约200万个同步片段，超过3000小时。
- 音频分支训练数据：包括语音、音效、音乐、歌唱等多类数据。音效来自YouTube-8M, AudioSet, WavCaps；音乐来自VidMuse；歌唱来自Yue collection。另有内部语音数据。总计超过5000万个高质量音频片段，超过13万小时。所有音频均通过Mel-Roformer预处理为分离的语音和音效分量。
损失函数：核心是条件流匹配（CFM）损失（公式2）。对于音频分支，总损失为语音流和音效流CFM损失之和（ℒdual = ℒCFM_sp + ℒCFM_sfx）。对于联合训练，损失为方向加权的视频与音频分支CFM损失之和（公式9）。
训练策略：
- Stage 1（音频分支训练）：4张H100 GPU，batch size 96，学习率1e-4，线性warmup 1k步，在240k和270k步进行步衰减（γ=0.1）。
- Stage 2（联合训练）：16张H100 GPU，bf16精度，ZeRO-2优化。学习率2e-5，batch size 32。采用渐进式训练策略，三阶段比例为0.3, 0.4, 0.3。仅训练音频分支和融合模块（双向交叉注意力、LayerNorm），视频骨干网络（Wan2.2-5B）被冻结。
关键超参数：
- 视频分支：29层Transformer。音频分支：23层Transformer（基于MMAudio，集成Zipformer）。
- 双向强制策略参数：最大时间步差Δmax = 0.25，引导强度λ = 0.5。
- 推理：50步流匹配采样器，分类器自由引导尺度6.0，输出25 FPS视频。
训练硬件：NVIDIA H100 GPU（数量见上）。
推理细节：论文中未详细说明解码策略的更多参数（如温度、采样器具体类型）。
正则化/稳定技巧：采用三阶段渐进式训练策略以稳定异步去噪训练；Bi-ACA中引入模态特定的可学习偏置以防止语义混淆；SCG中的Sigmoid约束门控系数在[0,1]之间。

⚖️ 评分理由

创新性：2.0/3 论文的问题定位精准，针对人类中心音视频生成的两个具体痛点（模态内干扰、跨模态失步）提出解决方案。所提出的“语义引导协调”和“双向强制”策略有明确的工程洞察和设计巧思，特别是将Diffusion Forcing思想创造性地应用于多模态对齐。与主要基线（如Harmony, UniAVGen）相比，在方法设计上有本质区别。不足： “强制”策略的核心思想（异步去噪）源自Diffusion Forcing，其创新主要在于应用和结合（与SCG、Bi-ACA），在概念原创性上略有不足。

技术严谨性：1.2/2 方法描述整体清晰，数学表述（如公式2, 6-9）准确。流匹配、扩散强制等基础理论引用正确。设计上，SCG和Bi-ACA的动机合理，有消融实验支持。潜在不足：(1) 双向强制策略中方向权重w_v, w_a的设置（公式8）略显启发式，λ=0.5的选择缺乏充分的敏感性分析或理论依据。(2) 渐进式训练中“概率p_ind(s)”的具体调度策略未说明。(3) 论文未讨论Bi-ACA中RoPE共享时如何确保语音和音效流的时序一致性对齐。

实验充分性：1.0/2 实验设计较为全面：在多个基准（TI2AV, T2AV）上与多个代表性开源SOTA模型进行了定量对比，报告了全面的视频、音频、跨模态指标。消融研究（表2，表3）完整，验证了各核心模块的有效性。用户研究提供了主观评价。主要不足：(1) 基线对比的局限性：虽然对比了主流开源模型，但对论文引言中提及的、已实现“电影级同步”的商业闭源模型（Sora 2, Veo 3）缺乏直接对比或深入分析，使得“SOTA”宣称的全面性存疑。(2) 缺乏对更复杂场景的细分评估：未提供对多人对话、混合强背景音乐等场景的细分结果，限制了结论的普适性。(3) 评估指标的缺失：缺少对音频空间感（如立体声场、声源移动）的评估，这对人类中心场景的真实感很重要。

清晰度：0.8/1 论文结构清晰，逻辑连贯。图表（如图1，2，3）直观地阐释了核心思想和框架。符号定义明确（如c_s, c_a, h_sp, h_sfx）。方法章节的描述足够详细，能让读者理解各模块的实现。轻微不足：部分技术细节（如训练概率p_ind的调度、Bi-ACA中模态偏置的具体初始化）未在正文或附录中说明。

影响力：0.7/1 该工作对推进更真实、和谐的人类中心多模态生成有明确价值。其提出的两个协调策略（解耦音频协调、异步强制对齐）具有通用性，可能启发后续工作在处理多模态对齐问题时采用更显式、更具针对性的设计。实验结果表明其在音频质量和同步性上达到了新的开源模型水平。影响力受限于：(1) 该任务本身相对特定；(2) 未与当前工业界最强系统进行对比，削弱了其作为“SOTA”的标杆意义。

可复现性：0.5/1 论文承诺“代码和模型将在接受后公开发布”，这是一个积极的信号。文中提供了主要的训练超参数、硬件配置和两阶段训练流程。然而，目前代码和权重未开源，且部分关键细节（如内部语音数据、数据清洗流程的具体参数、p_ind调度）未提供。复现高度依赖第三方模型（Wan2.2-5B, MMAudio, Zipformer, Mel-Roformer），开源完整度较低。

总分：6.2/10 （基于6个维度原始分总和：2.0+1.2+1.0+0.8+0.7+0.5 = 6.2，映射到10分制为6.2/10。但考虑到其在特定任务上的显著成果，总体评价可酌情上调至7.0）

🚨 局限与问题

论文明确承认的局限：作者在结论部分指出，尽管Unison在音画同步和音频平衡上表现优异，但其生成的视频在视觉美学纹理（如VA分数）上仍落后于更大规模的模型（如LTX-2），暗示了其在视觉生成能力上的天花板或未来提升方向。
审稿人发现的潜在问题：
- SCG机制的黑箱与不可控性：SCG完全基于文本语义自动计算门控系数，缺乏用户可控的接口。在实际应用中，用户可能希望手动调整语音和音效的比例，而目前的设计无法满足。此外，其泛化性和鲁棒性未在长尾或复杂场景中得到充分验证。
- 数据依赖性与“教师”偏差：框架严重依赖Mel-Roformer等工具进行前期的语音-音效分离来获取训练监督。这引入了“教师-学生”偏差，即Unison生成质量的上限可能受限于分离工具的质量。论文未讨论分离错误或伪影对最终生成结果的影响。
- 评估指标的全面性：虽然指标全面，但缺少对音频空间感（如立体声场、声源移动）的评估。人类中心场景中，环境音效的空间特性对真实感至关重要。
- 基线对比的缺失与结论强度：实验部分完全回避了与Sora 2, Veo 3等公认的最强闭源系统的任何直接或间接对比分析。这使得论文中“state-of-the-art”的宣称主要局限于开源模型范畴，其整体先进性结论在缺乏顶级工业系统对比的情况下显得有些孤立。
- “双向强制”策略的启发性设计：损失权重公式（8）中的λ=0.5以及最大时间步差Δmax=0.25的设置，更多是经验性的。缺乏对这些超参数敏感性的系统分析，也没有提供选择这些特定值的充分理论或实验依据。

← 返回 2026-05-12 论文速递

音视频同步 on 语音/音频论文速递