📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis
#语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习
9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5
🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv
👥 作者与机构
Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院)
💡 毒舌点评
本文的核心卖点——“holistic video dubbing”——是清晰且有价值的,即同时生成语音与音效,摆脱了传统配音的碎片化流程。然而,论文的表述存在一些矛盾与回避之处。首先,声称是“第一个统一框架”(the first holistic framework)可能需要更严格的文献调研,因为近期已有如DualDub等工作尝试联合生成。其次,将自有基准HoliDub-Bench描述为更具挑战性和综合性,但其1000个片段的规模对于深度学习时代的“benchmark”而言略显不足,其构建方法(从现有数据集中精选并标注)也更偏向于一个“评估集”而非严格意义上推动领域发展的“新benchmark”。最令人遗憾的是,论文在开源方面完全吝啬,未提供代码、模型权重或构建的HoliDub-Bench数据集,这严重阻碍了学术可复现性与公平比较,是顶会论文的一个显著缺陷。最后,实验部分虽然全面,但在与某些基线(如FunCineForge)对比时,部分指标(如UTMOS)的解读存在主观倾向性(认为接近Ground Truth更好),这一论点虽有一定道理,但需要更严谨的实证支持或心理物理学依据。
📌 核心摘要
本文提出了HoliDubber,一个用于复杂声学场景的整体视频配音框架。其核心创新在于,通过单一的文本提示,模型能够联合生成语音与环境音效,突破了现有配音系统仅生成语音的局限。该框架基于一个新颖的基于patch的自回归扩散Transformer架构,其中因果语言模型建模patch嵌入以捕获全局时序结构,扩散Transformer解码器则在每个patch内生成高保真的连续音频表示。为了实现跨模态对齐,视觉特征被编码并融入音频patch,通过交叉注意力机制与说话者的视觉发音动态对齐。论文还引入了HoliDub-Bench,一个用于整体配音评估的基准数据集。实验表明,HoliDubber在语音质量、同步性和说话人相似度等多个维度上显著优于现有方法。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及模型权重链接。
- 数据集:
- 训练数据集:
- VoxCeleb 2:公开数据集。论文未提供具体下载链接。
- CelebV-Dub:公开数据集。论文未提供具体下载链接。
- 训练文本到音频模型时使用的其他数据集:Emilia,论文未提供下载链接。
- 评估基准:
- HoliDub-Bench:由作者构建。论文未提供公开下载链接。论文描述其由从VoxCeleb 2和CelebV-Dub中精选的1000个片段构成,并经过结构化标注。
- 训练数据集:
- Demo:https://holidubber.github.io
- 复现材料:论文在附录D“Training Details”中详细提供了Audio-VAE、文本到音频预训练和HoliDubber主模型的训练配置细节(包括优化器、学习率、批大小、训练步数、硬件等)。此外,附录A、B、C也提供了数据集统计、标注提示设计和对比实验的具体设置。
- 论文中引用的开源项目:
- Qwen3-Omni-30B-A3B-Instruct:用于音频标注的骨干模型。论文未提供链接。
- Whisper (large-v3):用于语音识别的模型。论文未提供链接。
- Qwen2.5-1.5B:用于初始化因果自回归Transformer的语言模型。论文未提供链接。
- AV-HuBERT:用作视频编码器。论文未提供链接。
- AudioLDM:在附录C中用作解耦流水线的对比模型。论文未提供链接。
- CLAP:在相关工作中被提及用于文本-音频表示学习。论文未提供链接。
- AudioMAE:在相关工作中被提及用于特征提取。论文未提供链接。
- FastSpeech:在相关工作中被提及的基础TTS模型。论文未提供链接。
- VALL-E:在相关工作中被提及的离散token TTS模型。论文未提供链接。
- AudioLM:在相关工作中被提及的离散token TTS模型。论文未提供链接。
- SoundStorm:在相关工作中被提及的非自回归模型。论文未提供链接。
- VoiceCraft:在相关工作中被提及的in-context learner。论文未提供链接。
- CosyVoice:在相关工作中被提及的TTS模型。论文未提供链接。
- FireRedTTS:在相关工作中被提及的TTS模型。论文未提供链接。
- MELLE:在相关工作中被提及的自回归连续特征TTS模型。论文未提供链接。
- DiTAR:论文方法的基础架构。论文未提供链接。
- ARDiT:在相关工作中被提及的混合架构。论文未提供链接。
- VibeVoice:在相关工作中被提及的混合架构。论文未提供链接。
- DiffSound:在相关工作中被提及的扩散模型。论文未提供链接。
- Tango:在相关工作中被提及的TTA模型。论文未提供链接。
- Auffusion:在相关工作中被提及的TTA模型。论文未提供链接。
- Audiobox (Meta):在相关工作中被提及的工业模型。论文未提供链接。
- Video-to-Audio (V2A) (Google):在相关工作中被提及的工业模型。论文未提供链接。
- AudioGenOmni:在相关工作中被提及的模型。论文未提供链接。
- DeepAudio:在相关工作中被提及的模型。论文未提供链接。
- DualDub:在相关工作中被提及的模型。论文未提供链接。
- AlignDiT:基线模型。论文未提供链接。
- VoiceCraft-Dub:基线模型。论文未提供链接。
- FunCineForge:基线模型。论文未提供链接。
- Emotion2Vec:用于评估情绪相似度的模型。论文未提供链接。
- UTMOS:用于评估语音质量的指标/模型。论文未提供链接。
- LRS3:用于训练部分基线模型的数据集。论文未提供链接。
- Grid:在相关工作中被提及的小规模基准数据集。论文未提供链接。
- AudioCaps:在附录C中用于改写音频描述的数据集。论文未提供链接。
🏗️ 方法概述和架构
HoliDubber采用一个端到端的生成框架,通过文本提示统一合成语音与音效。其核心架构可分解为以下几个关键组件,数据流自下而上:
Audio-VAE(音频变分自编码器):
- 功能:将原始音频波形压缩到连续潜在空间,为后续生成模型提供高保真、低维度的音频表示。
- 结构:基于DAC架构,采用残差单元、Snake激活、权重归一化卷积和多尺度膨胀。关键区别在于,它用VAE瓶颈(预测均值和对数方差)替代了DAC的离散残差向量量化,输出连续潜在表示。
- 输入输出:输入为32kHz原始音频;输出为帧率25Hz的连续音频潜在特征序列。
- 训练:在约30,000小时、按1:1:1比例混合的语音、环境/音乐、混合音频数据上训练。
文本到音频(TTA)预训练模型:
- 功能:学习从文本到音频潜在表示的映射,建立无视觉条件下的基础音频生成能力。
- 架构:基于DiTAR的“分而治之”策略,包含以下模块:
- 因果自回归Transformer:初始化自预训练的Qwen2.5-1.5B语言模型。其核心作用是建模patch间的依赖关系。它接收由聚合编码器输出的patch级聚合嵌入序列,并通过下一token预测自回归地生成每个patch的条件嵌入
h_i。这捕获了音频的全局时序结构。 - 聚合编码器:由4个双向Transformer块组成。它将每个音频patch内的多个连续潜在特征与一个可学习的聚合token进行拼接,然后通过自注意力机制,将该patch的所有信息压缩到聚合token的输出位置,形成一个单一的嵌入向量。这为自回归Transformer提供了每个patch的紧凑表示。
- 局部扩散Transformer (LocDiT):由12个双向Transformer块组成,采用流匹配目标。其功能是生成每个音频patch内的细粒度连续特征。它以自回归Transformer的输出
h_i和先前生成的patchx_{i-1}为条件,将噪声逐步转化为目标patchx_0的连续表示。
- 因果自回归Transformer:初始化自预训练的Qwen2.5-1.5B语言模型。其核心作用是建模patch间的依赖关系。它接收由聚合编码器输出的patch级聚合嵌入序列,并通过下一token预测自回归地生成每个patch的条件嵌入
- 训练:使用约130,000小时数据(包括Emilia的语音、混合数据、带结构化标注的语音、非语音音频)进行预训练。
HoliDubber训练(在TTA模型基础上):
- 核心新增组件:基于Patch的音视频融合模块:
- 功能:在patch级别建立音频特征与视频特征(说话者发音动态)的细粒度对应关系。
- 结构:采用交叉注意力层。音频潜在特征作为Query,视频patch特征(由AV-HuBERT编码器提取)作为Key和Value。关键设计:每个音频patch关注的是其未来时间片段的视频patch,使模型能在自回归生成中“预判”发音动作,从而产生时序对齐的音频。
- 输入输出:输入为音频patch特征和对应的视频patch特征;输出为融合后的音视频特征序列。
- 训练流程:
- 输入音视频对,通过Audio-VAE和AV-HuBERT分别提取25Hz的音频潜在特征和视频特征,patch大小 P=5。
- 对每个音频patch,通过音视频融合模块与视频特征融合。
- 融合后的patch序列输入聚合编码器,得到每个patch的聚合嵌入。
- 这些聚合嵌入序列输入因果自回归Transformer,生成条件嵌入
h_i。 - 以
h_i和先前patch为条件,训练LocDiT生成当前patch的音频特征,优化目标为条件流匹配损失:\(\mathcal{L}=\mathbb{E}_{t,\epsilon,x_{0}}\left[\|v_{\theta}(x_{t},t,c)-(x_{0}-\epsilon)\|^{2}\right]\),其中c=(h_{i}, x_{i-1})。
- 多阶段训练策略:模型从大规模TTA预训练开始,然后在音视频数据上微调。微调时,文本输入包含结构化字段
<speaker profile>、<speech instruct>、<audio caption>和<text>。采用随机文本字段丢弃(概率50%)策略,训练时随机只保留<text>,使模型在推理时既能支持零样本配音(提供参考语音,无需<audio caption>等字段),也能支持文本提示引导配音(提供完整结构化文本)。 - 推理:自回归生成patch。在每个patch位置,自回归Transformer输出条件嵌入;LocDiT以此为条件,通过求解从噪声到数据的常微分方程(步数=10),生成该patch的音频连续表示;最后通过Audio-VAE解码器合成波形。
- 核心新增组件:基于Patch的音视频融合模块:


💡 核心创新点
- 问题定义创新:首次在单一生成框架中明确并统一解决“视频配音”任务中的语音与音效联合生成问题,超越了传统语音合成范式。
- 架构创新:提出基于Patch的音视频融合模块,通过交叉注意力在patch级别对齐音频与视觉发音动态,并创新性地让音频关注未来视频patch以实现前瞻性对齐。
- 训练策略创新:设计多阶段训练与随机文本字段丢弃策略,使一个模型能灵活支持“零样本配音”和“文本提示引导配音”两种模式,提升了框架的通用性。
- 数据与评测贡献:
- 构建了可扩展的音频标注流水线,生成包含说话人特征、语音指令和音频描述的结构化多维标注。
- 提出了HoliDub-Bench,一个专注于复杂声学场景(包含背景音效、音乐、情感变化)的整体配音评估基准。
📊 实验结果
表1. 零样本配音模式在VoxCeleb 2和CelebV-Dub测试集上的评估
| Model | VoxCeleb 2 test set | CelebV-Dub test set | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LSE-C↑ | LSE-D↓ | SPK-SIM↑ | EMO-SIM↑ | WER↓ | UTMOS↑ | MOS↑ | LSE-C↑ | LSE-D↓ | SPK-SIM↑ | EMO-SIM↑ | WER↓ | |
| GT | - | - | 0.71 | 0.980 | 19.91 | 2.51 | 3.82 | - | - | 0.55 | 0.950 | 9.19 |
| AlignDiT | 6.92 | 7.90 | 0.55 | 0.980 | 20.92 | 2.77 | 3.72 | 6.63 | 7.66 | 0.41 | 0.951 | 12.31 |
| VoiceCraft-Dub | 4.50 | 9.95 | 0.31 | 0.973 | 49.12 | 2.64 | 3.62 | 6.31 | 8.33 | 0.27 | 0.955 | 29.03 |
| FunCineForge | 1.56 | 13.29 | 0.46 | 0.978 | 21.22 | 3.70 | 3.91 | 2.63 | 11.89 | 0.34 | 0.954 | 21.47 |
| HoliDubber | 6.83 | 7.87 | 0.68 | 0.981 | 24.12 | 2.79 | 3.83 | 6.65 | 7.92 | 0.46 | 0.951 | 17.95 |
表2. 文本提示引导配音模式在VoxCeleb2和CelebV-Dub测试集上的评估
| Dataset | Model | LSE-C↑ | LSE-D↓ | EMO-SIM↑ | WER↓ | UTMOS↑ | MOS↑ | FD↓ | FAD↓ | KLD↓ | IS↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|
| VoxCeleb2 | GT | - | - | - | 19.91 | 2.51 | 3.82 | - | - | - | - |
| FunCineForge | 1.54 | 13.17 | 0.990 | 21.10 | 3.55 | 3.86 | 16.34 | 5.18 | 1.60 | 1.16 | |
| HoliDubber | 6.52 | 8.18 | 0.994 | 20.03 | 3.04 | 3.92 | 10.21 | 3.82 | 1.43 | 1.26 | |
| CelebV-Dub | GT | - | - | - | 9.19 | 2.87 | 3.92 | - | - | - | - |
| FunCineForge | 2.69 | 11.84 | 0.977 | 22.17 | 3.65 | 3.96 | 15.24 | 4.11 | 0.79 | 1.15 | |
| HoliDubber | 6.55 | 8.06 | 0.978 | 19.42 | 3.12 | 3.99 | 6.85 | 3.16 | 0.69 | 1.32 |
表3. 在HoliDub-Bench上的评估
| Model | LSE-C↑ | LSE-D↓ | EMO-SIM↑ | WER↓ | UTMOS↑ | MOS↑ | FD↓ | FAD↓ | KLD↓ | IS↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| GT | - | - | - | 14.51 | 2.80 | 3.89 | - | - | - | - |
| TTA | 1.21 | 15.26 | 0.993 | 15.28 | 2.97 | 3.81 | 9.52 | 10.51 | 1.89 | 1.54 |
| HoliDubber | 6.44 | 8.08 | 0.992 | 12.81 | 3.02 | 3.96 | 10.95 | 3.08 | 1.86 | 1.51 |
表4. 在VoxCeleb 2测试集上的零样本配音模式消融研究
| # | Methods | LSE-C ↑ | LSE-D ↓ | SPK-SIM↑ | EMO-SIM↑ | WER ↓ | UTMOS ↑ |
|---|---|---|---|---|---|---|---|
| 1 | HoliDubber | 6.83 | 7.87 | 0.68 | 0.981 | 24.12 | 2.79 |
| 2 | w/o ref-video | 4.29 | 10.21 | 0.65 | 0.980 | 21.43 | 2.91 |
| 3 | w/o patch-av-fusion | 4.15 | 10.15 | 0.15 | 0.972 | 62.19 | 1.76 |
| 4 | w/o prompt random drop | 4.61 | 9.96 | 0.56 | 0.980 | 25.62 | 2.86 |
表5. 整体生成与解耦流水线在HoliDub-Bench上的结果对比
| Model | LSE-C↑ | LSE-D↓ | EMO-SIM↑ | WER↓ | UTMOS↑ | MOS↑ | FD↓ | FAD↓ | KLD↓ | IS↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| GT | - | - | - | 14.51 | 2.80 | 3.89 | - | - | - | - |
| HoliDubber (prompt) + AudioLDM | 5.21 | 8.82 | 0.980 | 16.67 | 2.03 | 3.81 | 17.65 | 5.53 | 2.01 | 1.65 |
| HoliDubber | 6.44 | 8.08 | 0.992 | 12.81 | 3.02 | 3.96 | 10.95 | 3.08 | 1.86 | 1.51 |


⚖️ 评分理由
- 创新性 (1.6/2):统一语音与音效生成的框架定义新颖且实用,基于patch的前瞻性音视频融合机制有巧思。但技术实现上主要是对现有组件(DiTAR, AV-HuBERT, Qwen模型)的整合与适配,原创性略有折扣。
- 技术严谨性 (1.4/1.5):整体架构设计合理,理论依据充分(如交叉注意力优于拼接的理由)。但在关键点上缺乏更深入的探讨,例如,联合生成时语音与音效之间的相互影响(是协同还是干扰)未做量化分析;随机文本丢弃策略的概率选择(50%)缺乏消融实验验证其最优性。
- 实验充分性 (1.8/2):实验非常全面。在两种模式(零样本、文本引导)下与多个强基线对比,指标涵盖同步、质量、相似度、音频生成等多个维度。消融研究验证了各模块的有效性。提出的HoliDub-Bench提供了新的评测视角。不足之处在于,基线模型(如AlignDiT, VoiceCraft-Dub)可能不是最新的,且部分比较(如UTMOS)的解读存在主观性。
- 清晰度 (1.5/2):论文整体写作流畅,图表清晰,方法描述系统化。主要问题在于摘要和部分结论的表述可以更精炼、客观,避免过度宣称(如“第一个”)。部分技术细节(如Flow Matching的具体设置)分散在附录,主文阅读体验可进一步优化。
- 影响力 (1.7/2):论文直击视频配音流程的痛点(语音与音效分离),提出的整体生成范式对音频内容创作领域有显著的潜在应用价值和启发。技术路线(文本引导的多模态音频生成)符合当前发展趋势。其影响力主要局限于音频/多媒体领域,跨领域普适性一般。
- 开源 (0.0/1.5):论文完全未开源。未提供代码、模型权重、预训练模型、以及构建的HoliDub-Bench数据集。这使得其声称的“可复现的细节”大打折扣,严重影响了研究的可复现性和社区贡献。
- 可复现性 (1.0/1.5):论文在附录中提供了较为详细的训练超参数和数据构成(如GPU数量、训练时长、数据小时数),这有助于复现。然而,所有关键组件(Audio-VAE、预训练的TTA模型、结构化标注工具)均未开源,且依赖多个闭源或第三方模型(Qwen3-Omni, Whisper),因此完全复现的门槛极高,几乎不可能。
- 工程/实践价值 (1.5/1.5):统一生成框架具有很高的工程实践价值,能显著简化配音工作流,降低人力成本。详细的实现细节和训练配置对未来相关系统的开发有直接参考意义。
🚨 局限与问题
- 联合生成质量缺乏深入消融:论文主要消融了视觉输入、融合方式和训练策略,但未深入探讨“联合生成”本身的影响。例如,生成的非语音音效(如背景噪音)是否会影响生成语音的清晰度或情感表达?这需要设计更细致的消融实验(如控制音效复杂度)来量化分析。
- 基准规模与多样性:HoliDub-Bench由1000个从现有数据集中“精选”的片段构成。虽然设计了精细的标注,但其规模对于训练或严格验证一个新范式可能不足,且“精选”过程可能引入选择偏差。能否作为推动领域发展的标准benchmark有待商榷。
- 训练数据偏差:模型依赖于大规模的预训练数据(如Emilia)和自构建的结构化标注。这些数据中音效描述的准确性、以及语音-音效共现分布的合理性,会直接影响生成质量。论文对数据构建过程中的质量控制和潜在偏差讨论不足。
- 评估指标的局限性:
- 对于联合生成的音频,现有指标(UTMOS, MOS)主要评估语音质量,对音效质量及两者协调性的评估仍依赖FD/FAD等分布距离指标,缺乏能反映整体“沉浸感”或“协调性”的专用评估方法。
- 在文本引导模式下,评估以地面真值(GT)为参照,但用户生成的需求可能并非复制原始场景,GT的参考价值有限。
- 模型泛化与效率:
- 模型在推理时仍需要为每个patch运行扩散过程(步数=10),尽管已优化,但对于实时或低延迟应用仍具挑战。
- 框架的泛化能力未在更复杂场景(如多人对话、长视频、更夸张的艺术化音效生成)中得到验证。
- 作者自述局限的印证:论文结尾提到未来计划支持多语言、多说话人对话等,这反向印证了当前工作在处理复杂对话场景和多语言环境方面的不足。