📄 MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal Forgery Localization

6.9/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5

6.9/10 | 前50% | #RNN | arxiv

👥 作者与机构

  • 第一作者:Jingchen Ni(清华大学)
  • 共同第一作者:Cangjin Yu(未说明机构)
  • 通讯作者:Ke Zhang(苏州大学)、Chun Yuan(清华大学深圳国际研究生院)
  • 其他作者:Dan Jiang、Quan Zhang、Keyu Lv、Shannan Yan、Linyue Pan(均未说明机构)

💡 毒舌点评

本文巧妙地将线性复杂度的 RWKV 改造为双向多粒度检测器,在三个伪造定位基准上全面刷榜,设计思路清晰且工程量扎实。然而,全文在音频和视觉模态上一把抓却未深入解决模态间对齐与互补的核心难题,所谓“多模态”只是简单特征拼接,对纯音/纯视频场景下的跨模态泛化分析严重缺失。此外,论文未见任何代码或权重发布,声称“开源”却只闻楼梯响,复现可信度大打折扣。

📌 核心摘要

本文针对未剪辑音视频中的时序伪造定位任务,提出了一种线性复杂度的多粒度框架 MG-RWKV。其核心方法包含三个模块:双向 RWKV 架构以线性成本捕获双向时序上下文;多粒度混合专家通过不同膨胀率的卷积分支实现可解释的自适应尺度选择;跨粒度一致性约束在非伪造区域强制相邻特征金字塔层级特征对齐,以减少误报。与现有 CNN 受限感受野、Transformer 二次复杂度的方法不同,MG-RWKV 利用数据依赖的状态演化达到 \(\mathcal{O}(T)\) 复杂度并保持了密集的长程连接。在 Lav-DF、TVIL、Psynd 三个数据集及大规模 AV-Deepfake1M 基准上,MG-RWKV 均取得 SOTA 性能,尤其在严格 tIoU 阈值下优势显著:Lav-DF AP@0.95 达 38.47%(视觉+音频),TVIL AP@0.95 达 71.31%,Psynd AP@0.95 达 90.09%,AV-Deepfake1M AP@0.95 达 24.53%,相比之前最优方法 DiMoDif 提升 19.10 个百分点。实际意义在于为内容鉴伪提供了一种高效且可解释的起止点定位方案。主要局限是未提供开源代码与权重,跨模态与跨数据集的鲁棒性验证不足,且对极长视频的线性假设缺乏极致长周期的实验支持。

🔗 开源详情

  • 代码:论文中未提供代码链接
  • 模型权重:论文中未提供
  • 数据集:
    • Lav-DF:基于 VoxCeleb2 构建(未提供直接下载链接)
    • TVIL:基于 YouTubeVOS 2018 构建(未提供直接下载链接)
    • Psynd:基于 LibriTTS 构建(未提供直接下载链接)
    • AV-Deepfake1M:大规模 LLM 驱动音视频深度伪造基准(引用文献 [10],未提供直接下载链接)
  • Demo:论文中未提及
  • 复现材料:
    • 视觉特征提取器:预训练 TSN,未提供具体权重链接
    • 音频特征提取器:预训练 BYOL-A,未提供具体权重链接
    • 超参数配置:\(C=256\),金字塔 [2,2,5],膨胀率 {1,2,4},\(w=3\),\(\tau=0.9\),Top-K=2,\(r=8\),\(r_b=6\),\(E_{\text{warmup}}=5\)
    • 训练配置:AdamW,\(\eta_0=10^{-4}\),余弦退火,Lav-DF/TVIL 45 轮,Psynd 30 轮,\(\lambda_{\text{reg}}=2.0\),\(\lambda_0=0.01\)
    • 数据增强:随机裁剪、标签平滑、drop path
    • 推理配置:Soft-NMS 保留 top-100 提案
    • 硬件:NVIDIA RTX 3090
  • 论文中引用的开源项目:
    • RWKV:https://github.com/BlinkDL/RWKV-LM
    • Mamba:https://github.com/state-spaces/mamba
    • ActionFormer:https://github.com/happyharrycn/actionformer_release
    • TriDet:https://github.com/dingfengshi/TriDet
    • UMMAFormer:https://github.com/zhangke-1998/UMMAFormer
    • MVSS-Net:https://github.com/dongchen06/MVSS-Net
    • PSCC-Net:https://github.com/proteus1991/PSCC-Net
    • TruFor:https://github.com/grip-unina/TruFor
    • VideoMAEv2:https://github.com/OpenGVLab/VideoMAEv2
    • VoxCeleb2:https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
    • YouTubeVOS 2018:https://youtube-vos.org/
    • LibriTTS:https://www.openslr.org/60/

🏗️ 方法概述和架构

MG-RWKV 整体是一个基于双向 RWKV-7 的单阶段锚点自由时序伪造定位框架。

输入为未剪辑视频的预提取视觉和音频特征序列。视觉特征由预训练 TSN(ResNet-50 主干,每 16 帧采样)提取,音频特征由预训练 BYOL-A(每 0.96s 窗口)提取。两模态特征经投影后简单拼接融合,得到 \(T \times D\) 维的输入序列 \(\mathbf{X}\)。

该序列进入堆叠的 \(L\) 层 MG-RWKV 块。每个 MG-RWKV 块内部首先通过一个门控深度膨胀卷积 MSConv 融合多尺度局部上下文,公式为 \(\mathbf{X}_{\text{ms}} = \mathbf{X} + \gamma \cdot \text{MSConv}_{\mathcal{D}}(\mathbf{X})\),其中 \(\gamma\) 为可学习门控系数,\(\mathcal{D}\) 为膨胀率集合。多尺度增强后的特征随后送入 MG-MoE 模块,该模块以不同膨胀率 {1,2,4} 的双向 RWKV 分支作为具有明确物理意义时间感受野的"专家"。具体而言,膨胀率 \(d_k\) 的专家产生有效时间感受野为 \((w-1) \times d_k + 1\) 帧(\(w\) 为卷积核大小)。每个膨胀率分支均独立执行前向和后向 RWKV 扫描,产生 \(2K\) 个专家特征(\(K=3\) 为膨胀率数量)。

MG-MoE 的路由策略基于每个专家特征的通道均值与最大值拼接,经轻量 1D 卷积与温度 Softmax 得到时变路由权重,再通过 Top-2 稀疏门控迫使每个位置仅激活 2 个专家。Top-2 设计允许边界位置同时激活相邻粒度,实现平滑尺度过渡。前向后向特征分别独立路由后经线性投影融合为块输出。

MG-RWKV 块堆叠产生多层级特征 \(\{\mathbf{H}^{(l)}\}_{l=1}^{L}\)(论文采用 [2,2,5] 的金字塔配置),再通过特征金字塔网络自顶向下融合:\(\mathbf{F}^{(l)} = \text{Conv}(\mathbf{H}^{(l)} + \text{Upsample}(\mathbf{F}^{(l+1)}))\)。最终由分类头和回归头生成每个时间位置的伪造概率和边界偏移。后处理使用 Soft-NMS 保留 top-100 提案。

CGC 模块在训练时强制相邻 FPN 层特征在非伪造区域保持余弦相似度。首先对真实伪造掩码进行膨胀(半径 \(r=8\))以排除边界附近的负样本掩码,并在过渡帧(边界半径 \(r_b=6\) 范围)施加 0.5 的边界感知权重,承认边界附近存在真实的尺度依赖性差异。损失采用层级配对方式逐对计算一致性,并引入渐进式系数预热策略(前 \(E_w=5\) 轮线性增加到目标权重 \(\lambda_0=0.01\)),避免早期特征未分化时被一致性约束压制多尺度多样性。总损失由 Focal 分类损失(\(\alpha=0.25, \gamma=2.0\))、DIoU 回归损失(权重 \(\lambda_{\text{reg}}=2.0\))、辅助重建损失和 CGC 损失加权组成。

整体设计动机在于:RWKV 的数据依赖衰减天然平衡全局平滑与局部突变感知,双向扫描弥补单向信息不足;多粒度专家显式适配帧级闪变到长片合成等不同尺度伪造;CGC 专门解决多分支带来的跨尺度矛盾,以显著降低虚警率。三个模块形成"全局上下文→自适应多尺度感知→跨尺度矛盾消除"的闭环。

图1

图2

💡 核心创新点

  1. 面向 TFL 的线性双向 RWKV 架构:将 RWKV-7 扩展为双向扫描,以 \(\mathcal{O}(T)\) 复杂度获取全局时序上下文,突破了 Transformer 二次复杂度与 CNN 感受野受限的瓶颈。在 TFL 任务上实证 RWKV-7 优于 Mamba(Lav-DF mAP 82.43 vs 80.15)。有效感受野(ERF)可视化进一步证实,MG-RWKV 展现出与全 Transformer 相当的密集、长程时序连接模式,同时保持线性复杂度。
  2. 多粒度混合专家:用不同膨胀率的卷积 RWKV 分支构建可解释的"粒度专家池",并通过基于均值-最大池化的动态路由与 Top-K 稀疏门控自适应选择时间尺度。该设计不仅提升了 AP@0.95(TVIL 上 +5.44%),还使决策过程变得可解释:路由器在伪造区域更倾向于选择粗粒度尺度以捕获全局模式,在真实区域更倾向于选择细粒度尺度以进行精确局部建模,边界处平滑过渡。
  3. 跨粒度一致性约束:通过层级成对特征对齐、边界感知弱化、渐进式预热三个子设计,消除了多尺度分支在真段区域的矛盾。消融显示三个子设计独立贡献分别为 +0.42%、+0.27%、+0.87%(TVIL mAP),累积提升 1.56%。CGC 不增加推理开销。
  4. 框架级线性复杂度闭环设计:三个模块协同形成完整链,打破了传统方法效率与精度的权衡,在多个数据集上以更低 FLOPs 取得 SOTA。AV-Deepfake1M 上 AP@0.5AP@0.95 的衰减比为 3.57×,远优于 DiMoDif 的 16.0× 和 UMMAFormer 的 32.7×,体现了边界定位的结构性稳定性。

📊 实验结果

论文在三个基准数据集及一个大规模基准上进行了全面评估。

Lav-DF 数据集结果(视觉+音频):

方法模态AP@0.5AP@0.75AP@0.95AR@100
UMMAFormerV+A98.8395.5437.6192.48
MFMSV+A98.4794.1527.8090.69
TriDetV+A96.2986.8423.6491.00
MG-RWKVV96.7392.3626.6092.17
MG-RWKVV+A98.9294.8138.4793.41

纯视觉模式下 MG-RWKV 以 26.60 AP@0.95 超越 UMMAFormer 视觉版的 25.68。

TVIL 数据集结果(纯视觉):

方法AP@0.5AP@0.75AP@0.95AR@100
ActionFormer86.2783.0328.1788.49
UMMAFormer88.6884.7062.4391.16
MG-RWKV91.2287.4471.3192.24

AP@0.95 提升 8.88 个百分点,且 AP@0.5AP@0.75 同样分别提升 2.54 和 2.74 个百分点,并非仅在严格阈值上体现优势。

Psynd 数据集结果(纯音频):

方法AP@0.5AP@0.75AP@0.95AR@100
UMMAFormer100.00100.0079.8797.60
MG-RWKV100.0098.3890.0998.61

AP@0.95 提升 10.22 个百分点。

AV-Deepfake1M 数据集结果(附录):

方法模态AP@0.5AP@0.75AP@0.9AP@0.95AR@50
DiMoDifA+V86.9375.9528.725.4381.57
MG-RWKVA+V87.6077.7647.2024.5376.64

AP@0.9AP@0.95 上分别领先 DiMoDif 18.48 和 19.10 个百分点,展示了在极具挑战性的大规模 LLM 驱动合成数据上的边界精度优势。但 AR 指标上 DiMoDif 保持优势(AR@50 领先 4.93 个百分点),体现了精度-召回权衡。

消融实验:逐步加入 BiDir、MG-MoE、CGC 后,Lav-DF mAP 从 82.43→85.99→86.94→87.29;TVIL mAP 从 83.32→83.08→84.35→85.91;Psynd mAP 从 92.49→96.21→97.67→98.23。值得注意的是,TVIL 上单独加入 BiDir 后 mAP 反而略降(83.32→83.08),论文未对此异常给出解释。

CGC 单独消融:基础 CGC(+0.42% mAP TVIL)→ 加边界感知权重(+0.27%)→ 加渐进预热(+0.87%),渐进预热贡献最大。MG-MoE 配置分析表明尺度组合 [1,2,4]、Top-2 稀疏、均值-最大池化路由效果最佳。[1,2,4,8] 和 [1,2] 分别因过度平滑和感受野不足而表现逊色。

效率测试:全模型推理时间 73.4ms,内存 274MB,参数 56.2M。CGC 零推理开销。随序列长度增加,FLOPs 和内存均呈线性增长,远优于 Transformer 的二次增长。

定性比较表明 MG-RWKV 相比 UMMAFormer 边界定位更锐利,真实片段误报更少。

图3

图4

🔬 细节详述

  • 训练数据:Lav-DF 基于 VoxCeleb2,TVIL 基于 YouTubeVOS 2018,Psynd 基于 LibriTTS,AV-Deepfake1M 基于 LLM 驱动合成流水线(附录 A 评估)。预处理为预提取的特征,视觉使用 TSN(ResNet-50 主干,每 16 帧采样),音频使用 BYOL-A(每 0.96s 窗口)。数据增强包含随机裁剪、标签平滑和 drop path。
  • 损失函数:总损失 = Focal Loss (\(\alpha=0.25, \gamma=2.0\)) + \(\lambda_{\text{reg}}\) DIoU Loss (\(\lambda_{\text{reg}}=2.0\)) + 辅助重建损失 + \(\lambda_{\text{CGC}}(e)\) CGC 损失。CGC 为基于余弦距离的一致性损失,在负样本区域计算,带有边界感知权重(\(r_b=6\) 范围内 0.5,其余 1.0),忽略半径 \(r=8\)。
  • 训练策略:优化器 AdamW,学习率初始 \(10^{-4}\),余弦退火衰减。Lav-DF/TVIL 训练 45 轮,Psynd 30 轮。CGC 系数在前 5 轮从 0 线性增长至 0.01。批量大小未明确给出。
  • 关键超参数:特征维度 \(C=256\),MG-RWKV 块堆叠 [2,2,5],膨胀率 {1,2,4},卷积核 \(w=3\),MG-MoE 温度 \(\tau=0.9\),Top-K=2。CGC 忽略半径 \(r=8\),边界半径 \(r_b=6\),预热轮数 \(E_{\text{warmup}}=5\)。CGC 权重 \(\lambda\) 在 [0.01,0.03] 稳定,\(r\) 在 [6,10] 稳定。
  • 训练硬件:所有实验在 NVIDIA RTX 3090 GPU 上进行,训练时长未说明。
  • 推理细节:后处理使用 Soft-NMS,保留 top-100 提案,阈值等未详细说明。
  • 正则化:除标签平滑、drop path 外,未提及其他特殊技巧。

⚖️ 评分理由

  • 创新性 (1.4/2):将 RWKV 双向化并引入基于膨胀的多粒度专家结构与跨粒度一致性约束,整体设计系统且形成闭环,非简单替换。针对 TFL 任务的结构化多尺度感知和可解释路由具有一定新意。但各组件本身(RWKV、MoE、FPN 一致性)均为已有概念,组合虽有新洞察但未构成范式级突破。
  • 技术严谨性 (1.1/1.5):方法推导与公式描述清楚,模块设计有明确动机。未发现明显理论错误。但对 RWKV-7 的状态演化机制在 TFL 中的数学解释较浅,双向扫描融合仅为简单线性投影拼接,缺少对潜在状态碰撞或长程记忆衰退的讨论。CGC 的边界感知权重和忽略半径选择缺乏理论支撑,TVIL 上 BiDir 基线 mAP 略降(83.32→83.08)未给出解释,削弱了论证严密性。
  • 实验充分性 (1.2/1.5):覆盖三个代表性数据集及大规模 AV-Deepfake1M 基准,与多个强基线进行全面对比。消融实验逐步增加组件,并对 MG-MoE 的关键配置和 CGC 超参数做了详细分析(含完整数值表),效率对比也较完整。AV-Deepfake1M 上的精度-召回权衡分析深刻。不足:未在更长的视频序列(如 >5000 帧)上验证线性复杂度的实际优势;缺少跨数据集泛化实验;未报告统计显著性检验;TVIL 的 BiDir 消融异常未深入讨论。
  • 清晰度 (0.8/1):整体结构清晰,图文并茂,组件分解合理。公式符号整体规范。但部分细节缺失(如批量大小、NMS 具体阈值、训练时长),架构图中部分信息密集。
  • 影响力 (0.7/1.5):TFL 是内容鉴伪的重要子任务,论文以高效方案取得 SOTA,对社区有参考价值。在 AV-Deepfake1M 上的卓越边界稳定性为后续方法设立了较高标准。但该任务仍属小领域,影响力相对有限。同时未提供开源工具或预训练模型,削弱了实际传播和后续工作潜力。任务涉及音频和视觉,但在音频处理社区的直接推动较小。
  • 开源 (0.5/1.5):论文未提供任何代码仓库、模型权重或演示链接。仅在结论等处提及"代码将开源",但无实际 URL,属于空头承诺。因此只能给 0.5 分。
  • 可复现性 (0.3/0.5):给出了大部分超参数、优化器、学习率、训练轮数、硬件型号,细节基本可支撑复现。但缺失批量大小、具体数据预处理流水线、Soft-NMS 参数等关键信息,复现仍需较多猜测和调试。
  • 工程/实践价值 (0.9/1.5):框架整体设计考虑了效率,推理时间、内存占用、FLOPs 均有量化并与 Transformer 和 Mamba 对比,具备一定落地潜力。CGC 零推理开销是实用的设计。但缺少完整的推理管道与部署细节,未提供模型文件,工业界直接复用门槛较高。

🚨 局限与问题

  1. 论文明确承认的局限:未在正文或结论中明确���出局限性,仅简要指出未来可在更大规模数据集上验证。
  2. 审稿人发现的潜在问题:
    • 线性复杂度声称基于 \(\mathcal{O}(T)\),但在更长视频(如数万帧)上的实际时延和内存缺乏验证,RWKV 状态可能退化或数值不稳定。
    • 双向扫描采用独立参数集但最终通过线性拼接融合,可能产生前向后向状态冗余或冲突,影响长程依赖。TVIL 消融中 BiDir 基线 mAP 反而略降 (83.32→83.08) 是明显的红旗,论文未对此异常给予解释,可能暗示双向信息在某些条件下并非总是有益,或存在优化困难。
    • CGC 忽略半径和边界权重为手工设定,对数据集和伪造类型的敏感性只控制了权重 \(\lambda\) 和半径 \(r\),未验证对新类型伪造成本的影响。在更复杂场景下这些阈值可能需要重新校准。
    • 多模态特征融合仅使用简单投影拼接,并未设计模态对齐或跨模态伪造线索交互,可能浪费了音频模态的鉴别力。AV-Deepfake1M 的结果也暗示了这一点:单模态方法在该基准上几乎崩溃(ActionFormer+VideoMAEv2 AP@0.95 仅 0.07%),但 MG-RWKV 也未充分利用模态互补,其优势主要来自更好的时序建模而非模态融合。
    • 所有实验均在预提取特征上进行,未评估端到端训练的影响,实际部署时特征提取开销未计入推理时间统计。
    • 声称 CGC 可消除跨尺度矛盾,但 AR 指标上 AV-Deepfake1M 中 DiMoDif 全面领先,论文将此归因于精度-召回权衡,这表明 CGC 在降低误报的同时可能抑制了部分真实伪造片段的检出。
    • 未进行跨数据集泛化实验(如 Lav-DF 训练 → TVIL 测试),无法评估模型在未见过的伪造类型上的鲁棒性。

📷 论文图片

图5


← 返回 2026-07-02 语音/音乐/音频论文速递