AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection
📄 AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinforcement for Multimodal Deepfake Detection #音频深度伪造检测 #强化学习 #多模态模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #强化学习 | #多模态模型 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Ebad Shabbir(DSEU-OKHLA, New Delhi, India) 通讯作者:Jiechao Gao(Stanford University, Stanford, CA, USA) 作者列表:Ebad Shabbir(DSEU-OKHLA, New Delhi, India),Pushkar Arora(DSEU-OKHLA, New Delhi, India),Rakshita Saksaina(DSEU-OKHLA, New Delhi, India),Tiange Xie(Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China),Jiechao Gao(Stanford University, Stanford, CA, USA) 💡 毒舌点评 本文巧妙地将强化学习(PPO)引入多模态融合权重的动态决策,思路新颖且在小规模实验上取得了令人瞩目的性能提升,证明了“让模型自己决定信哪个”的可行性。然而,其所有实验仅基于1000个片段的微小数据集进行,这就像在沙盘里赢得了一场战争,其结论能否推广到真实世界的海量、复杂数据洪流中,要打一个大大的问号,极大地限制了工作的说服力。 ...