Misinformation Span Detection in Videos via Audio Transcripts
📄 Misinformation Span Detection in Videos via Audio Transcripts #音频安全 #预训练 #多语言 #音视频 ✅ 7.5/10 | 前25% | #音频安全 | #预训练 | #多语言 #音视频 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Breno Matos (联邦米纳斯吉拉斯大学,工作完成时) 通讯作者:未说明 作者列表: Breno Matos (联邦米纳斯吉拉斯大学) Rennan C. Lima (未说明具体机构) Savvas Zannettou (未说明具体机构) Fabrício Benevenuto (未说明具体机构) Rodrygo L.T. Santos (未说明具体机构) 💡 毒舌点评 这篇论文的亮点在于敏锐地捕捉到了“视频虚假信息片段检测”这一空白任务,并提供了首个公开、标注的数据集,为后续研究铺平了道路。然而,其短板也十分明显:方法上缺乏实质创新,仅仅是现有语音转录模型(Whisper)和语言模型(BERTimbau/PTT5)的串联使用,更像是一个“数据集构建与初步验证”的工作,而非一个提出突破性算法的论文。 🔗 开源详情 代码:提供代码仓库链接(https://github.com/brenomatos/msd)。 模型权重:提及发布了训练好的模型权重,可通过HuggingFace获取。 数据集:公开发布。BOL4Y和EI22数据集(包括虚假声明、转录文本、标注)在Zenodo仓库(https://zenodo.org/records/19097541)。音频和视频文件托管在HuggingFace(https://huggingface.co/datasets/brenomatos/msd),需申请访问。 Demo:未提及。 复现材料:提供了数据集构建和模型训练的代码。论文附录详细说明了数据集的字段结构。 引用的开源项目: Whisper:用于语音转录。 BERTimbau:用于生成文本嵌入和作为分类器。 PTT5:用于作为分类器。 SentenceTransformers:用于获取嵌入。 Doccano:用于文本标注。 HuggingFace Transformers:用于模型实现。 📌 核心摘要 问题:现有视频虚假信息检测多停留在视频级别的二分类,无法定位视频中具体哪一段内容(即虚假声明)是问题所在,这给事实核查和内容审核带来了困难。 方法核心:提出“虚假信息片段检测”任务。方法流程为:使用Whisper将视频音频转录为文本片段;利用BERTimbau模型将片段和已知的虚假声明转换为向量,通过余弦相似度匹配可能包含虚假信息的片段;最后,使用BERTimbau或PTT5作为分类器,对转录片段进行二分类(是否为虚假信息)。 创新点:首次定义并研究该任务;构建并公开了两个包含时间戳标注的葡萄牙语虚假视频数据集(BOL4Y和EI22);进行了包括时间窗口分析、跨数据集评估在内的系统性基准实验。 主要实验结果:在BOL4Y数据集上,使用BERTimbau分类器在1:75的下采样比例下取得了最佳的Macro F1分数0.68。在“编辑版”数据集(使用记者润色后的声明)上,性能有所提升,最佳F1达到0.81。跨数据集实验(BOL4Y训练,EI22测试)取得了0.71的F1分数,表明模型具有一定的泛化能力。时间分析显示,模型性能在不同月份间存在波动。 实际意义:为自动化辅助事实核查人员定位视频中的虚假内容、为社交平台在虚假声明出现时精准添加警告标签提供了技术可能和数据基础。 主要局限性:依赖于音频转录质量,Whisper的自动分段可能不够精确;数据仅限于葡萄牙语和巴西政治语境,泛化性未知;分类性能(F1=0.68)仍有较大提升空间。 🏗️ 模型架构 本文没有提出新的模型架构,而是构建了一个基于现有预训练模型的处理流水线。整体流程如下: ...