📄 When Vision Speaks for Sound

#音视频 #偏好优化 #多模态模型 #鲁棒性 #诊断框架

✅ 7.7/10 | 前25% | #音视频 | #偏好优化 | #多模态模型 #鲁棒性 | arxiv

学术质量 6/8 | 影响力 0.9/1 | 可复现性 0.9/1 | 置信度高

👥 作者与机构

第一作者：Xiaofei Wen（University of California, Davis）
通讯作者：论文未明确标注通讯作者。
作者列表：Xiaofei Wen（University of California, Davis）、Wenjie Jacky Mo（University of California, Davis）、Xingyu Fu（Princeton University）、Rui Cai（University of California, Davis）、Tinghui Zhu（University of California, Davis）、Wendi Li（University of Wisconsin–Madison）、Yanan Xie（Uniphore）、Muhao Chen（University of California, Davis）、Peng Qi（Uniphore）。注：Xiaofei Wen与Wenjie Jacky Mo标注为共同第一作者（d）。

💡 毒舌点评

这篇论文敏锐地抓住了当前视频多模态模型“重看轻听”的要害，用一个精巧的Thud诊断框架把“聪明汉斯效应”量化得明明白白。提出的两阶段对齐配方（SFT+DPO+混合数据）在解决特定问题上取得了显著的数值提升，尤其是时间同步任务。然而，论文的核心结论“28%平均提升”主要建立在自建的Thud诊断集上，其泛化性存疑。更关键的是，对Mute和Swap两种干预的对齐训练探索极为初步，远未达到时间同步任务的深度，这使得论文关于“干预训练可扩展”的论断显得根基不稳。实验主要基于单一基座模型（Qwen3-Omni-30B），在更广泛模型上的有效性未经验证，限制了工作的普适性。

📌 核心摘要

要解决什么问题：论文发现并定义了当前视频多模态大语言模型（MLLMs）中普遍存在的“音视频聪明汉斯效应”（Audio-Visual Clever Hans Effect）。模型在处理音视频信息时，看似理解了音频，实则主要依赖视觉线索进行“幻听”，而没有真正验证音频流是否存在、是否同步或是否匹配。
方法核心是什么：为诊断此问题，作者提出了Thud（Temporal and Hallucination Unmasking Diagnostics）框架，通过三种可控的反事实音频编辑干预：Shift（时间平移，测试同步性）、Mute（静音，测试存在性）、Swap（替换，测试一致性），来系统性地探测模型的真实音频验证能力。为解决此问题，作者研究了一种两阶段对齐配方：首先用干预数据进行监督微调（SFT）建立基础音频感知，然后用干预数据与常规视频数据混合进行直接偏好优化（DPO），教导模型识别并拒绝视觉捷径。
与已有方法相比新在哪里：与以往侧重于视觉-语言或通用音视频理解的工作不同，本文首次系统化地定义、诊断并量化了视频MLLM在音视频接地上的“视觉捷径”依赖。Thud框架通过可控的反事实干预，将评估从“自然相关”视频推进到“可控破坏相关”的视频，能暴露模型伪对齐问题。提出的对齐配方则创新性地将诊断性干预数据转化为训练信号，并通过混合通用视频数据来平衡“针对性改进”与“通用性保持”。
主要实验结果如何：实验在多个闭源和开源模型上验证了问题的普遍性（表1）。模型在原始视频上表现尚可，但在Thud干预条件下性能暴跌，平均性能下降（Avg Gap）高达46.6%至80.7%。针对对齐，基于Qwen3-Omni-30B的消融实验（表2）显示，作者的最佳10K样本DPO配方将时间同步（Sync）准确率从34.3%提升至83.1%，将VGGSync（跨数据集时间同步）从36.8%提升至56.4%，同时在多个通用视频/音视频QA基准上保持或略有提升，六项基准平均分从51.3%提升至63.3%。在扩展至Mute和Swap任务上（图7），添加少量干预SFT数据后，模型在Swap任务上达到第一，在Mute上达到第二，平均性能相比基线提升28个百分点。
实际意义是什么：本工作揭示了当前音视频模型能力评估中的一个重大盲点，并提供了一个可操作的诊断工具（Thud）和一套初步的缓解方案。这有助于社区更准确地评估模型真实能力，并为未来训练更可靠的音视频模型指明了方向。
主要局限性是什么：论文明确承认，其对齐配方实验仅在单一基座模型（Qwen3-Omni-30B）上验证，其在更广泛模型家族上的有效性有待研究。此外，对Mute和Swap的完整训练研究尚未深入展开，目前的提升主要基于在时间同步配方上添加少量数据，缺乏系统消融。审稿人认为，核心的“28%提升”指标主要基于作者自建的Thud测试集，其泛化意义需谨慎解读；同时，对齐后模型在高度复杂、需要深度音频理解的任务上的表现仍需考察。

🔗 开源详情

代码：论文中标注了“Code”占位符，但未提供可访问的GitHub等链接或仓库名称。
模型权重：论文中标注了“Model”占位符，但未提及本研究产出的模型权重（如训练后的模型）的公开获取链接。论文评估的其他模型（如Qwen3-Omni, MiniCPM-o-4.5）链接未在论文中提供。
数据集：论文未提及本研究构建的Thud诊断数据集或训练数据的公开下载链接。论文使用了Oops、FineVideo、LLaVA-Video-178K等数据集，并在相应位置提供了项目主页链接（FineVideo和LLaVA-Video）。
Demo：未提及。
复现材料：论文在附录C中提供了非常详细的训练配置，包括硬件（8×NVIDIA H200 GPUs）、基础模型（Qwen3-Omni-30B-A3B-Instruct）、超参数（学习率、batch size、LoRA设置、DeepSpeed配置等）、训练时长（SFT约6小时，10K DPO约20小时）以及评估时长。这些信息为复现提供了关键指导。
论文中引用的开源项目：
1. Qwen3-Omni: 论文使用其作为主要训练和评估的基础模型。项目主页：https://github.com/QwenLM/Qwen2.5-Omni
2. MiniCPM-o-4.5: 论文评估的开源模型之一。项目主页：https://github.com/OpenBMB/MiniCPM-o
3. FineVideo: 论文引用的数据集。项目主页：https://github.com/fanqiulan/FineVideo
4. LLaVA-Video-178K: 论文引用的多选题数据集。项目主页：https://github.com/LLaVA-VL/LLaVA-Video
5. Ming-Omni-2.0, Nemotron-3-Omni, Gemini, GPT-5.5: 论文评估的模型，未提供具体开源链接（部分为闭源）。

🏗️ 方法概述和架构

本文的核心工作是一个由诊断框架和对齐配方构成的两阶段研究框架，旨在揭示并缓解视频MLLM中的视觉捷径问题。

整体流程概述：整个研究分为诊断与对齐两个核心部分。诊断部分通过Thud框架，对现有模型进行受控测试，暴露其音频验证缺陷。对齐部分基于诊断出的问题，构建专用数据并设计训练配方，以改善模型的音频验证能力。这是一个“问题发现 -> 工具构建 -> 解决方案探索”的完整研究流水线。
主要组件/模块详解

Thud 诊断框架
- 功能：作为核心诊断工具，用于系统性探测模型在音频存在性、时间同步性和跨模态一致性上的真实判断能力，暴露其依赖视觉捷径的程度。
- 内部结构/实现：Thud 由三种反事实干预算子构成，每种算子针对一个特定的接地维度：
  1. Shift（时间平移）：\(\mathcal{I}_{\textsc{Shift}}(v;\Delta)=(x_{1:T},a_{1:T}^{+\Delta})\)。将音频轨道在时间上平移 \(\Delta\) 秒（\(\Delta \in [-\Delta_{\max}, \Delta_{\max}]\)），而视频流保持不变。这迫使模型比较视觉事件的时间与声音的时间。
  2. Mute（静音）：\(\mathcal{I}_{\textsc{Mute}}(v)=(x_{1:T},\varnothing)\)。将音频轨道替换为静音，测试模型是否能验证声音的存在。
  3. Swap（替换）：\(\mathcal{I}_{\textsc{Swap}}(v,v^{\prime})=(x_{1:T},a^{\prime}_{1:T})\)。将原始音频替换为来自另一视频 \(v^{\prime}\) 的、声学上合理但物理上不一致的音频 \(a^{\prime}_{1:T}\)，测试模型是否能验证音频与视频源的一致性。
- 输入输出：输入为自然视频 \(v=(x_{1:T},a_{1:T})\)。输出为经过干预的视频 \(\tilde{v}\)，以及用于评估的诊断问题（如“音频同步吗？”）。模型对这些视频的回答会被评估为“正确接地”或“视觉捷径”。
数据构建与偏好对生成
- 功能：将Thud的诊断问题转化为可用于模型训练的监督信号。
- 内部结构/实现：
  1. 数据溯源与标注：使用Oops数据集（包含易产生声音的意外事件）。为每个源视频标注事件-时间元组 \(z_i=(e_{i}^{v},t_{i}^{v},e_{i}^{a},t_{i}^{a})\)（视觉事件/时间，音频事件/时间）。标注通过Gemini初始生成，并用GPT/Claude（视觉，通过帧单元分析）和人工（音频）进行交叉验证，确保可靠性（公式7）。具体标注和过滤协议见附录B。
  2. 偏好对构建：对于每个干预后的视频 \(\tilde{v}_i\) 和诊断提示 \(q_i\)，构建一对回答 \((y_i^+, y_i^-)\)。\(y_i^+\)（chosen）是真实反映音频状态的正确回答。\(y_i^-\)（rejected）是符合视觉逻辑但与音频证据不符的“捷径”回答。这组成了偏好数据集 \(\mathcal{D}_{\mathrm{pref}}\)（公式8）。
两阶段对齐配方
- 功能：基于构建的偏好数据和通用视频数据，训练模型以改善其音视频接地能力，同时保持通用性。
- 内部结构/实现：这是一个标准的后训练流程，分为两个阶段：
  1. 阶段一：监督微调热身：使用干预数据对基础模型（如Qwen3-Omni-30B）进行SFT，建立基础的音频感知响应模式。
  2. 阶段二：偏好优化：使用直接偏好优化（DPO）。训练数据混合了：
    - 干预偏好对：来自Thud的 \((\tilde{v}_i, q_i, y_i^+, y_i^-)\)，教导模型拒绝视觉捷径。具体包括原始同步偏好数据（OP）、SFT策略负样本（SP）、反事实时间偏好数据（CTP）等。
    - 通用视频偏好数据：从FineVideo和LLaVA-Video中构建，提供常规音视频对应关系的监督，防止模型过度特化于反事实案例，保留广泛的视频理解能力。具体包括描述、定位、归因（FV-D）、音频依赖QA（FV-AVQA）等数据。
- 输入输出：输入是SFT后的模型检查点和混合偏好数据集。输出是经过DPO优化、能更好区分真实音视频对应与视觉捷径的新模型检查点。最终配方（Ours）使用了约10K样本的混合数据。

组件间的数据流与交互：数据流清晰。Thud框架生成干预视频和问题。数据构建模块利用这些干预视频和人类/模型标注生成偏好对。这些偏好对与通用视频偏好数据混合，输入到两阶段对齐流水线中。第一阶段的SFT输出作为第二阶段DPO的初始化。最终，优化后的模型在原始Thud诊断集及外部基准上进行评估，形成闭环。
关键设计选择及动机：

为何选择Shift/Mute/Swap这三种干预：它们系统性地覆盖了音视频接地的三个核心维度：时间同步、声音存在、物理一致性，能全面暴露“视觉捷径”的不同表现形式。
为何使用混合数据进行DPO：纯干预数据训练可能导致模型过拟合到反事实场景，在常规视频上性能下降（即“对齐税”）。加入通用视频偏好数据作为正则化，旨在平衡“针对特定问题的改进”与“保持通用能力”。
为何采用SFT+DPO两阶段：SFT先为模型注入正确的音视频响应模式（即使是简单的），再利用DPO通过对比学习精细调整，使其学会拒绝更微妙的视觉捷径。

架构图/流程图：论文提供了两张关键流程图。

Pipeline for intervention data construction 图9 展示了干预数据构建的完整流水线。从Oops等数据集筛选视频，通过Gemini/GPT/人工进行交叉验证标注，得到可靠的事件-时间标签。然后对这些源视频应用Shift/Mute/Swap三种干预，生成反事实视频。最后，结合诊断提示，为每个干预视频构建“chosen”（正确）和“rejected”（视觉捷径）的回答对，形成偏好数据集。底部是一个Shift干预的示例。

Two-stage intervention-driven alignment pipeline 图10 展示了两阶段对齐训练流水线。第一阶段（Stage 1），使用干预数据对基础模型进行SFT，建立基础的音频感知能力。第二阶段（Stage 2），进行DPO训练，其数据由两部分混合：干预偏好对（用于抑制视觉捷径）和通用视频指令数据（如FineVideo，用于保持通用性）。最终得到同时具备强音视频验证能力和通用视频理解能力的模型。

💡 核心创新点

定义与诊断“音视频聪明汉斯效应”：首次明确并系统化地定义了视频MLLM在音视频理解中依赖视觉捷径而非真正音频验证的现象。创新性在于将经典的“聪明汉斯”概念引入多模态对齐评估，并设计了Thud诊断框架来量化它。
设计Thud反事实诊断协议：提出Shift、Mute、Swap三种互补的反事实干预，从时间、存在、一致性三个维度主动破坏音视频的自然相关性，从而暴露模型的弱点。其创新在于系统性、可控性和诊断深度。
将诊断数据转化为对齐信号：创新性地将为诊断而生成的反事实干预数据，转化为DPO训练的偏好对。通过明确的“chosen”（音频验证）和“rejected”（视觉捷径）回答对，直接教导模型区分真实接地与视觉幻觉，实现了闭环。
提出混合数据对齐配方以平衡性能：在对齐训练中，创新性地混合使用干预偏好数据和常规视频偏好数据。这种设计旨在解决改进特定弱点时可能导致的通用性能下降（对齐税）问题，实验表明它能在提升音视频诊断能力的同时，维持甚至提升通用视频理解基准分数。

📊 实验结果

诊断实验（Table 1）：测试了多个闭源和开源模型。所有模型在自然视频（Orig.）上表现尚可，但在Thud干预条件下性能显著下降。平均性能下降（Avg Gap）反映了捷径依赖程度。

模型	大小	时间同步 (Orig./Shift)	音频存在 (Orig./Mute)	声音一致性 (Orig./Swap)	平均下降
Gemini	N/A	54.9 / 46.5	100.0 / 13.4	93.6 / 18.3	56.8%
MiniCPM-o-4.5	9B	83.8 / 13.7	100.0 / 19.0	95.8 / 4.9	80.7%
Nemotron-3-Omni	30B	35.9 / 26.8	66.2 / 4.2	88.7 / 19.9	46.6%
Qwen3-Omni	30B	100.0* / 1.4	95.1 / 0.0	75.4 / 37.3	77.3%
Ming-Omni-2.0	100B	54.2 / 20.1	95.7 / 54.9	90.1 / 15.5	49.8%
MiMo-V2.5	311B	73.9 / 9.9	99.3 / 2.1	89.4 / 15.3	78.4%
注：Qwen3-Omni在原始时间同步任务上达到100%准确率，但被Shift干预后暴跌至1.4%，表明其可能依赖“默认同步”先验。

Failure-mode heatmap 图3 的热力图进一步揭示了失败模式：所有模型在“音频幻觉”（Mute Hallucination）和“错误匹配”（Swap False-Match）上都出现高失败率（>0.63），表明它们普遍会为静音视频虚构声音，并接受不匹配的音频。相反，“音频否认”类错误（False Silence, Swap False-Mismatch）很低。时间失败则因模型而异。

对齐配方实验（Table 2）：以Qwen3-Omni-30B为基座，研究不同训练配方在时间同步（Sync，自建）、VGGSync（跨数据集时间同步）和多个通用/音视频QA基准上的表现。

配方	Sync	VGGSync	V-MME	LVB	WS	DO	平均
Qwen3-Omni-30B	34.3	36.8	69.2	49.1	50.3	68.2	51.3
SFT w/ OP	73.9	–	–	–	–	–	–
SFT w/ CTP + FV-D + FV-AL	76.1	46.7	43.8	40.8	48.2	66.9	53.8
DPO w/ SP	75.4	55.7	69.3	50.9	49.8	69.0	61.7
DPO w/ OP + SP	76.5	56.4	69.9	47.7	49.7	68.5	61.5
DPO w/ SP + FV-D	82.2	55.4	69.1	51.5	49.8	68.0	62.7
DPO w/ OP + FV-D + LV-MCQA	83.0	56.6	69.2	50.4	49.9	67.6	62.8
DPO w/ CTP + FV-D	81.2	55.8	69.6	51.4	49.5	68.0	62.6
DPO w/ CTP + FV-D + LV-MCQA	82.2	55.7	69.2	51.1	49.8	67.8	62.6
DPO w/ CTP + FV-D + FV-A	82.6	55.9	69.1	50.8	49.9	67.3	62.6
Ours (DPO w/ CTP + FV-D + FV-A)	83.1	56.4	70.1	52.1	50.3	67.9	63.3

关键发现：1) 作者的最佳混合DPO配方在Sync（83.1%）和VGGSync（56.4%）上显著优于基线。2) SFT混合干预和通用数据（SFT w/ CTP + FV-D + FV-AL）虽然提升了Sync，但严重损害了通用基准性能（V-MME从69.2降至43.8），证明了纯监督混合会导致“对齐税”。DPO配方则成功平衡了二者。

Difficulty-band robustness 图5 显示了在不同时间偏移量（|Δ|）下的鲁棒性。基线模型在任何非零偏移下准确率急剧下降。而作者的模型（Ours）在所有偏移区间都保持更高的准确率，且呈现出“偏移越小越难”的合理趋势。

扩展至Mute和Swap（Figure 7）：在最佳时间同步配方基础上，添加少量Mute/Swap SFT数据后，模型在Swap任务上达到第一，在Mute上达到第二，在三个干预上的平均性能相比Qwen3-Omni基线提升28个百分点。这表明干预训练的潜力，但论文明确指出对Mute/Swap的完整训练研究尚未深入。

Beyond temporal synchronization 图7 展示了在Original和干预条件下的Mute和Swap综合准确率，作者的模型在干预条件下表现最佳。图8进一步显示了干预检测与假阳性率之间的权衡，作者的模型更接近理想的左上角。

🔬 细节详述

训练数据：
- 干预数据：源于Oops数据集，经过严格的事件-时间标注和过滤（容忍阈值 ϵ_v=0.8s, ϵ_a=0.5s），并通过Shift, Mute, Swap三种干预生成反事实样本。
- 通用视频数据：来源于FineVideo（重新标注事件级时间片段信息）和LLaVA-Video-178K。从FineVideo中构建了描述、定位、归因和音频依赖QA四类指令数据。
- 偏好对：包括OP（原始同步偏好）、SP（SFT策略负样本）、CTP（反事实时间偏好）、FV-D（FineVideo描述偏好）、FV-AVQA/FV-AVQA-L（FineVideo音频依赖QA偏好）、LV-MCQA（LLaVA-Video多选QA）等。最佳配方（Ours）总数据量约为10K样本。
损失函数：SFT阶段使用标准语言建模损失。DPO阶段使用Sigmoid DPO损失，β=0.1。
训练策略：
- SFT：全参数微调，学习率 2×10⁻⁶，余弦调度，warmup比例0.03，训练3个epoch，有效batch size为32。
- DPO：使用LoRA（rank=32, alpha=64, dropout=0.05），学习率 1×10⁻⁶，训练1个epoch，有效batch size为64。
关键超参数：基础模型为Qwen3-Omni-30B-A3B-Instruct。训练最大序列长度131,072 tokens。视频最大像素数：SFT为501,760，DPO为250,880。音频输入在视频中被启用（use_audio_in_video=true）。
训练硬件：所有训练在单节点8×NVIDIA H200 GPU上进行，使用DeepSpeed ZeRO-3。单次SFT运行约6小时，10K样本的DPO训练约20小时。
推理细节：评估在8×H200或8×H100 GPU上进行。对Shift任务使用结构化提示要求模型判断同步并估计偏移；对Mute和Swap任务使用开放式描述提示。自由形式回答通过GPT-5.4作为LLM-Judge解析为结构化预测（详细提示见附录G）。
评估基准：除了自建Thud基准，还在VGGSync（跨数据集时间同步）、Video-MME、LVBench、WorldSense、DailyOmni等外部基准上评估通用性能。

⚖️ 评分理由

创新性：2.3/3 论文识别了音视频模型中一个关键且被忽视的问题——视觉捷径依赖，并将其概念化为“聪明汉斯效应”。Thud诊断框架的三种干预设计系统且有力。将诊断数据转化为对齐信号，并通过混合通用数据来平衡性能的做法是合理的应用。然而，核心的对齐方法（SFT+DPO）在技术上是现有范式的标准应用，创新主要在于问题定义、诊断工具和数据设计，而非算法突破。

技术严谨性：1.3/2 诊断部分形式化清晰，干预操作明确。数据标注流程（多模型交叉验证+人工审查）较为严谨。然而，在关键的对齐部分存在明显不足：1）“28%平均提升”这一结论主要基于作者自建的Thud测试集，缺乏在更广泛、更权威基准上的验证。2）对Mute和Swap的对齐训练仅有初步探索（图7），缺乏类似时间同步任务的详细消融分析（如不同数据比例的影响）。3）DPO训练中使用的超参数（如β=0.1）选择依据未充分讨论。

实验充分性：1.6/2 实验设计较为全面：诊断实验覆盖了多个代表性模型，结论具有普适性。对齐实验包含详细的配方消融（表2），清晰地展示了干预数据、通用数据、DPO vs SFT各自的作用。在多个外部基准上评估了通用性能。不足之处在于：1）对齐后的模型未与其他针对音视频优化的SOTA模型进行直接对比（表1中已有模型是未优化前的版本）。2）核心提升指标依赖自建测试集。3）缺乏统计显著性检验或误差棒分析。4）仅在单一基座模型（Qwen3-Omni-30B）上进行对齐实验，泛化性存疑。

清晰度：0.8/1 论文写作优秀，结构清晰。图表信息丰富，尤其是热力图（图3）和分解图（图4）直观地揭示了模型行为。公式定义明确。方法描述详细，附录提供了大量细节。符号使用一致。

影响力：0.9/1 本文触及了多模态模型发展中的一个关键痛点。Thud诊断工具有潜力成为评估未来音视频模型的标准组件，推动社区从“在自然数据上刷分”转向“在受控反事实中验证”。提出的对齐配方为缓解该问题提供了初步思路。工作对音视频领域的研究人员有较高参考价值。

可复现性：0.85/1 论文提供了较高水准的复现信息：详细的训练配置（表4）、超参数、硬件环境、数据处理流程、评估提示和Judge提示。论文标注了Code和Model占位符，但未提供可访问的具体链接。如果代码和模型仓库完整且文档清晰，则复现门槛较低。开源详情部分信息不足。

🚨 局限与问题

论文明确承认的局限：

“Our training recipe is currently evaluated on a limited set of base models, so its effectiveness across broader omni-modal model families remains to be further studied.”（训练配方仅在有限的基座模型上评估。）
“In addition, our recipe experiments primarily validate the effect of applying DPO after SFT for improving temporal synchronization. We have not yet conducted a complete training study for the Mute and Swap settings…”（对Mute和Swap的完整训练研究尚未深入。）

审稿人发现的潜在问题：

对齐提升的泛化性质疑：论文的核心提升指标（如“28%平均提升”，表2中的改进）主要基于作者自建的Thud诊断测试集。这些提升在多大程度上能转化为模型在真实世界、复杂下游任务中的性能改善，需要更多独立、多样化的基准来验证。论文未与其他音视频对齐方法进行比较，削弱了结论的说服力。
对齐税评估的全面性：虽然论文在V-MME、LVB等基准上显示了性能保持甚至提升，但这些基准是否完全覆盖了“通用视频理解”的方方面面（如长视频理解、复杂叙事推理、细粒度动作识别等）值得商榷。
Mute/Swap对齐的深度严重不足：论文明确指出对Mute和Swap的训练研究尚未深入。图7的结果虽然积极，但只是初步验证，是在时间同步配方基础上“添加少量Mute/Swap SFT数据”得到的。缺乏针对Mute/Swap任务的独立、系统消融实验，无法回答：1）为Mute/Swap设计的偏好数据效果如何？2）如何平衡Shift/Mute/Swap三种任务的数据比例？3）提升时间同步能力是否会影响Mute/Swap表现（或反之）？
实验基座模型单一：所有对齐实验均基于Qwen3-Omni-30B。论文声称该方法“可扩展”，但未在其他架构（如视觉编码器不同、音频处理方式不同）的模型上验证，方法的普适性存疑。
偏好对构建中的潜在偏差：虽然进行了交叉验证，但依赖Gemini进行初始标注并用GPT-5.4作为LLM-Judge评估自由形式回答，可能引入系统性偏差。论文未深入讨论这种潜在偏差及其对评估结果的影响。
干预的现实代表性：Shift、Mute、Swap是高度受控的反事实干预。现实世界中的音视频不匹配可能更微妙（如背景音乐持续但音效缺失、声音被环境噪声掩盖等）。模型在这些自然“扰动”下的表现如何，未被Thud直接评估，其实际应用价值需要更多论证。

← 返回 2026-05-20 语音/音乐/音频论文速递

📄 When Vision Speaks for Sound#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文