<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>音视频深度伪造检测 on 语音/音频论文速递</title>
    <link>https://nanless.github.io/audio-paper-digest-blog/tags/%E9%9F%B3%E8%A7%86%E9%A2%91%E6%B7%B1%E5%BA%A6%E4%BC%AA%E9%80%A0%E6%A3%80%E6%B5%8B/</link>
    <description>每日 AI 自动生成的语音/AI 领域论文深度分析</description>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 04 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://nanless.github.io/audio-paper-digest-blog/tags/%E9%9F%B3%E8%A7%86%E9%A2%91%E6%B7%B1%E5%BA%A6%E4%BC%AA%E9%80%A0%E6%A3%80%E6%B5%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>ICLR 2026 - 音视频深度伪造检测 论文列表</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-task-043/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-task-043/</guid>
      <description>&lt;h1 id=&#34;iclr-2026---音视频深度伪造检测&#34;&gt;ICLR 2026 - 音视频深度伪造检测&lt;/h1&gt;
&lt;p&gt;共 &lt;strong&gt;1&lt;/strong&gt; 篇论文&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/iclr2026-summary/&#34;&gt;← 返回 ICLR 2026 总览&lt;/a&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;排名&lt;/th&gt;
          &lt;th&gt;论文&lt;/th&gt;
          &lt;th&gt;评分&lt;/th&gt;
          &lt;th&gt;分档&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;🥇&lt;/td&gt;
          &lt;td&gt;&lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tell-me-habibi-is-it-real-or-fake&#34;&gt;Tell me Habibi, is it Real or Fake?&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;8.5分&lt;/td&gt;
          &lt;td&gt;前25%&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;-论文详情&#34;&gt;📋 论文详情&lt;/h2&gt;
&lt;h3 id=&#34;-tell-me-habibi-is-it-real-or-fake&#34;&gt;🥇 &lt;a href=&#34;https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tell-me-habibi-is-it-real-or-fake&#34;&gt;Tell me Habibi, is it Real or Fake?&lt;/a&gt;&lt;/h3&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.5/10&lt;/strong&gt; | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本&lt;/p&gt;
&lt;p&gt;👥 &lt;strong&gt;作者与机构&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Kartik Kuckreja (MBZUAI)&lt;/li&gt;
&lt;li&gt;通讯作者：未明确标注，但通讯邮箱主要为 &lt;a href=&#34;mailto:kartik.kuckreja@mbzuai.ac.ae&#34;&gt;kartik.kuckreja@mbzuai.ac.ae&lt;/a&gt; 和 &lt;a href=&#34;mailto:parul@monash.edu&#34;&gt;parul@monash.edu&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University)&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;p&gt;💡 &lt;strong&gt;毒舌点评&lt;/strong&gt;&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="iclr-2026---音视频深度伪造检测">ICLR 2026 - 音视频深度伪造检测</h1>
<p>共 <strong>1</strong> 篇论文</p>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 总览</a></p>
<hr>
<table>
  <thead>
      <tr>
          <th>排名</th>
          <th>论文</th>
          <th>评分</th>
          <th>分档</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>🥇</td>
          <td><a href="/audio-paper-digest-blog/posts/2026-05-04-tell-me-habibi-is-it-real-or-fake">Tell me Habibi, is it Real or Fake?</a></td>
          <td>8.5分</td>
          <td>前25%</td>
      </tr>
  </tbody>
</table>
<hr>
<h2 id="-论文详情">📋 论文详情</h2>
<h3 id="-tell-me-habibi-is-it-real-or-fake">🥇 <a href="/audio-paper-digest-blog/posts/2026-05-04-tell-me-habibi-is-it-real-or-fake">Tell me Habibi, is it Real or Fake?</a></h3>
<p>🔥 <strong>8.5/10</strong> | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本</p>
<p>👥 <strong>作者与机构</strong></p>
<ul>
<li>第一作者：Kartik Kuckreja (MBZUAI)</li>
<li>通讯作者：未明确标注，但通讯邮箱主要为 <a href="mailto:kartik.kuckreja@mbzuai.ac.ae">kartik.kuckreja@mbzuai.ac.ae</a> 和 <a href="mailto:parul@monash.edu">parul@monash.edu</a></li>
<li>作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University)</li>
</ul>
<h1></h1>
<p>💡 <strong>毒舌点评</strong></p>
<p>亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。</p>
<h1></h1>
<p>🔗 <strong>开源详情</strong></p>
<ul>
<li>代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。</li>
<li>模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。</li>
<li>数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。</li>
<li>Demo：未提及。</li>
<li>复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。</li>
<li>论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。</li>
</ul>
<p>📌 <strong>核心摘要</strong></p>
<p>这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。</p>
<h1></h1>
<hr>
]]></content:encoded>
      <category>音视频深度伪造检测</category>
    </item>
    <item>
      <title>Tell me Habibi, is it Real or Fake?</title>
      <link>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tell-me-habibi-is-it-real-or-fake/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      <guid>https://nanless.github.io/audio-paper-digest-blog/posts/2026-05-04-tell-me-habibi-is-it-real-or-fake/</guid>
      <description>&lt;h1 id=&#34;-tell-me-habibi-is-it-real-or-fake&#34;&gt;📄 Tell me Habibi, is it Real or Fake?&lt;/h1&gt;
&lt;p&gt;#音视频深度伪造检测 #数据集 #多语言 #零样本&lt;/p&gt;
&lt;p&gt;🔥 &lt;strong&gt;8.5/10&lt;/strong&gt; | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本&lt;/p&gt;
&lt;p&gt;学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高&lt;/p&gt;
&lt;h3 id=&#34;-作者与机构&#34;&gt;👥 作者与机构&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;第一作者：Kartik Kuckreja (MBZUAI)&lt;/li&gt;
&lt;li&gt;通讯作者：未明确标注，但通讯邮箱主要为 &lt;a href=&#34;mailto:kartik.kuckreja@mbzuai.ac.ae&#34;&gt;kartik.kuckreja@mbzuai.ac.ae&lt;/a&gt; 和 &lt;a href=&#34;mailto:parul@monash.edu&#34;&gt;parul@monash.edu&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University)&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;h3 id=&#34;-毒舌点评&#34;&gt;💡 毒舌点评&lt;/h3&gt;
&lt;p&gt;亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。&lt;/p&gt;
&lt;h1&gt;&lt;/h1&gt;
&lt;h3 id=&#34;-开源详情&#34;&gt;🔗 开源详情&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。&lt;/li&gt;
&lt;li&gt;模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。&lt;/li&gt;
&lt;li&gt;数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。&lt;/li&gt;
&lt;li&gt;Demo：未提及。&lt;/li&gt;
&lt;li&gt;复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。&lt;/li&gt;
&lt;li&gt;论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;-核心摘要&#34;&gt;📌 核心摘要&lt;/h3&gt;
&lt;p&gt;这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<h1 id="-tell-me-habibi-is-it-real-or-fake">📄 Tell me Habibi, is it Real or Fake?</h1>
<p>#音视频深度伪造检测 #数据集 #多语言 #零样本</p>
<p>🔥 <strong>8.5/10</strong> | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本</p>
<p>学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高</p>
<h3 id="-作者与机构">👥 作者与机构</h3>
<ul>
<li>第一作者：Kartik Kuckreja (MBZUAI)</li>
<li>通讯作者：未明确标注，但通讯邮箱主要为 <a href="mailto:kartik.kuckreja@mbzuai.ac.ae">kartik.kuckreja@mbzuai.ac.ae</a> 和 <a href="mailto:parul@monash.edu">parul@monash.edu</a></li>
<li>作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University)</li>
</ul>
<h1></h1>
<h3 id="-毒舌点评">💡 毒舌点评</h3>
<p>亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。</p>
<h1></h1>
<h3 id="-开源详情">🔗 开源详情</h3>
<ul>
<li>代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。</li>
<li>模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。</li>
<li>数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。</li>
<li>Demo：未提及。</li>
<li>复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。</li>
<li>论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。</li>
</ul>
<h3 id="-核心摘要">📌 核心摘要</h3>
<p>这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。</p>
<h1></h1>
<h3 id="-模型架构">🏗️ 模型架构</h3>
<p>论文的核心并非提出一个全新的检测模型，而是设计并实现了一个复杂的数据生成管道，用于创建ArEnAV数据集。该管道的架构如图所示，主要分为三个阶段：</p>
<ol>
<li>数据收集与预处理：基于YouTube视频，进行场景分割、人脸检测与跟踪，并使用Whisper-v2进行语音识别获得转录文本，再用多语言wav2vec2模型进行强制对齐，获取词级时间戳。</li>
</ol>
<p><img alt="ArEnAV数据生成管道示意图" loading="lazy" src="https://nanless.github.io/audio-paper-digest-images/iclr-2026/2026-05-04/EbrPXZTVJ9-0.png"></p>
<p>图1：ArEnAV数据集生成管道示意图。a) 展示了从原始视频提取音视频、文本，到使用GPT-4.1-mini进行代码切换文本篡改，再到语音合成和人脸唇形同步生成的全流程。</p>
<ol start="2">
<li>
<p>转录文本篡改：使用GPT-4.1-mini，通过少样本提示，根据8种预定义规则对原始转录进行修改。这些规则分为三大类操作：<code>仅改变语义</code>、<code>改变语义+改变阿拉伯方言</code>、<code>改变语义+翻译成英语</code>，旨在生成多样化的伪造文本。</p>
</li>
<li>
<p>音视频合成：</p>
<ul>
<li>音频生成：采用四种组合策略生成合成语音：a) XTTS-v2；b) XTTS-v2 + OpenVoice-v2（说话人转换）；c) Fairseq阿拉伯语TTS + OpenVoice-v2；d) GPT-TTS + OpenVoice-v2。生成后使用Whisper-Turbo进行验证。</li>
<li>视觉生成：采用两种基于扩散模型的唇形同步方法：Diff2Lip和LatentSync，根据篡改后的音频重新生成嘴唇运动区域的视频帧。</li>
</ul>
</li>
</ol>
<p>关键设计选择在于将语言现象（代码切换、方言变体） 与伪造操作（替换、插入、删除） 结合，并通过多种生成模型组合来提高多样性和真实性。</p>
<h1></h1>
<h3 id="-核心创新点">💡 核心创新点</h3>
<ol>
<li>首个聚焦代码切换的音视频深度伪造数据集：提出了ArEnAV，专门针对阿拉伯语-英语句内代码切换场景。现有数据集（如AV-1M, FakeAVCeleb）均未涉及此现象，这是对深度伪造数据生态的重要补充。</li>
<li>复杂且可控的文本篡改管线：设计了8种文本修改模式，并利用LLM（GPT-4.1-mini）实现自动化、多样化的语义与语言变体替换，确保了伪造内容在文本层面的合理性和挑战性。</li>
<li>多技术融合的生成管道：集成了4种TTS模型和2种唇形同步模型，以模拟真实世界中可能遇到的不同质量和类型的伪造内容，提高了数据集的覆盖范围和难度。</li>
<li>全面的基准测试与揭示的新挑战：不仅对现有SOTA模型进行了广泛测试，还通过用户研究揭示了人类在检测此类伪造内容时的困难（尤其是当伪造发生在英语单词时），证明了该数据集带来的新挑战。</li>
</ol>
<h1></h1>
<h3 id="-细节详述">🔬 细节详述</h3>
<ul>
<li>训练数据：数据来源为YouTube视频（通过VisPer的阿拉伯语子集获取）。预处理包括场景检测分割视频、使用Yolov5进行人脸检测与跟踪。数据增强方面，在真实和伪造视频上应用了15种视觉滤镜（如高斯模糊、椒盐噪声）和10种音频扰动（如时间拉伸、随机响度）以模拟真实世界条件。</li>
<li>损失函数：论文未提及生成管道中TTS和唇形同步模型的具体训练损失函数。这些模型（如XTTS, Diff2Lip）均为已发表的预训练模型。</li>
<li>训练策略：对于基准测试中的检测模型（如BA-TFD），论文提到了其训练细节：在ArEnAV上进行微调时，对帧进行子采样以消除类别不平衡。具体学习率、优化器等超参数未说明。</li>
<li>关键超参数：未说明生成管道中GPT-4.1-mini的提示超参数（如temperature），也未说明TTS和唇形同步模型的具体配置参数。</li>
<li>训练硬件：生成ArEnAV数据集总耗时约800个GPU小时（使用NVIDIA RTX-6000 GPU）。此外，使用了价值200美元的OpenAI API额度。</li>
<li>推理细节：对于检测模型的评估，视频级预测通过帧级预测的最大投票法聚合。零样本评估时，使用VideoLLaMA2等模型并提示其输出伪造概率分数。</li>
<li>正则化或稳定训练技巧：未说明。</li>
</ul>
<h1></h1>
<h3 id="-实验结果">📊 实验结果</h3>
<p>论文对ArEnAV进行了全面的基准测试，包括时序定位和检测两个任务。</p>
<p>时序定位结果（测试集）：</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">集合</th>
          <th style="text-align: left">模型</th>
          <th style="text-align: left">模态</th>
          <th style="text-align: left"><a href="mailto:AP@0.5">AP@0.5</a></th>
          <th style="text-align: left"><a href="mailto:AP@0.95">AP@0.95</a></th>
          <th style="text-align: left">AR@50</th>
          <th style="text-align: left">AR@10</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">全集</td>
          <td style="text-align: left">BA-TFD+ (AV-1M预训练)</td>
          <td style="text-align: left">AV</td>
          <td style="text-align: left">3.74</td>
          <td style="text-align: left">0.01</td>
          <td style="text-align: left">30.75</td>
          <td style="text-align: left">1.83</td>
      </tr>
      <tr>
          <td style="text-align: left">全集</td>
          <td style="text-align: left">BA-TFD (AV-1M预训练)</td>
          <td style="text-align: left">AV</td>
          <td style="text-align: left">2.42</td>
          <td style="text-align: left">0.01</td>
          <td style="text-align: left">22.30</td>
          <td style="text-align: left">1.67</td>
      </tr>
      <tr>
          <td style="text-align: left">全集</td>
          <td style="text-align: left">Xception</td>
          <td style="text-align: left">V</td>
          <td style="text-align: left">22.50</td>
          <td style="text-align: left">0.58</td>
          <td style="text-align: left">19.13</td>
          <td style="text-align: left">19.13</td>
      </tr>
      <tr>
          <td style="text-align: left">子集V (无音频伪造)</td>
          <td style="text-align: left">BA-TFD+ (AV-1M预训练)</td>
          <td style="text-align: left">AV</td>
          <td style="text-align: left">5.65</td>
          <td style="text-align: left">0.02</td>
          <td style="text-align: left">31.09</td>
          <td style="text-align: left">2.05</td>
      </tr>
      <tr>
          <td style="text-align: left">子集A (无视觉伪造)</td>
          <td style="text-align: left">BA-TFD+ (AV-1M预训练)</td>
          <td style="text-align: left">AV</td>
          <td style="text-align: left">4.35</td>
          <td style="text-align: left">0.00</td>
          <td style="text-align: left">28.35</td>
          <td style="text-align: left">2.00</td>
      </tr>
      <tr>
          <td style="text-align: left">结论：与在LAV-DF或AV-1M上的性能相比，所有模型在ArEnAV上的AP@0.5大幅下降超过35%，证明了该数据集的极高难度。</td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
<p>检测结果（测试集）：</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">预训练数据</th>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">模态</th>
          <th style="text-align: left">完整集 AUC</th>
          <th style="text-align: left">完整集 Acc.</th>
          <th style="text-align: left">子集V AUC</th>
          <th style="text-align: left">子集A AUC</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">零样本ASVSpoof-19</td>
          <td style="text-align: left">XLSR-Mamba</td>
          <td style="text-align: left">A</td>
          <td style="text-align: left">39.19</td>
          <td style="text-align: left">52.77</td>
          <td style="text-align: left">52.73</td>
          <td style="text-align: left">52.50</td>
      </tr>
      <tr>
          <td style="text-align: left">AV-1M</td>
          <td style="text-align: left">BA-TFD</td>
          <td style="text-align: left">AV</td>
          <td style="text-align: left">61.73</td>
          <td style="text-align: left">26.00</td>
          <td style="text-align: left">66.42</td>
          <td style="text-align: left">59.36</td>
      </tr>
      <tr>
          <td style="text-align: left">AV-1M &amp; ArEnAV (微调)</td>
          <td style="text-align: left">BA-TFD</td>
          <td style="text-align: left">AV</td>
          <td style="text-align: left">75.91</td>
          <td style="text-align: left">44.31</td>
          <td style="text-align: left">77.64</td>
          <td style="text-align: left">72.21</td>
      </tr>
      <tr>
          <td style="text-align: left">AV-1M &amp; ArEnAV (微调)</td>
          <td style="text-align: left">BA-TFD+</td>
          <td style="text-align: left">AV</td>
          <td style="text-align: left">79.97</td>
          <td style="text-align: left">27.44</td>
          <td style="text-align: left">84.20</td>
          <td style="text-align: left">72.89</td>
      </tr>
      <tr>
          <td style="text-align: left">结论：在AV-1M上预训练的模型性能不佳，经过ArEnAV微调后性能显著提升，BA-TFD+在完整集上达到82% AUC（论文提及），但仍存在提升空间。</td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
<p>跨数据集检测比较（% AUC）：</p>
<table>
  <thead>
      <tr>
          <th style="text-align: left">方法</th>
          <th style="text-align: left">ArEnAV</th>
          <th style="text-align: left">DFDC</th>
          <th style="text-align: left">FF++</th>
          <th style="text-align: left">CelebDF</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td style="text-align: left">Face-X-Ray</td>
          <td style="text-align: left">55.56</td>
          <td style="text-align: left">80.92</td>
          <td style="text-align: left">98.52</td>
          <td style="text-align: left">80.58</td>
      </tr>
      <tr>
          <td style="text-align: left">LipForensics</td>
          <td style="text-align: left">49.76</td>
          <td style="text-align: left">73.50</td>
          <td style="text-align: left">97.10</td>
          <td style="text-align: left">82.40</td>
      </tr>
      <tr>
          <td style="text-align: left">LAA-Net</td>
          <td style="text-align: left">50.04</td>
          <td style="text-align: left">86.94</td>
          <td style="text-align: left">99.96</td>
          <td style="text-align: left">-</td>
      </tr>
      <tr>
          <td style="text-align: left">结论：在FF++, DFDC等数据集上训练的SOTA模型，在ArEnAV上性能接近随机猜测（~50% AUC），表明它们无法泛化到多语言代码切换场景。</td>
          <td></td>
          <td></td>
          <td></td>
          <td></td>
      </tr>
  </tbody>
</table>
<p>用户研究结果：
人类参与者对ArEnAV视频的检测准确率仅为60.00%，AP@0.5为0.79。主要分类理由是“语音不清晰”（36.5%）和“音视频不匹配”（25.1%）。当伪造发生在英语单词时，85%的用户未能识别。</p>
<h1></h1>
<h3 id="-评分理由">⚖️ 评分理由</h3>
<ul>
<li>学术质量：6.5/7：论文的核心工作（数据集构建）在设计、规模和严谨性上非常出色。实验部分全面且有说服力，清晰地展示了问题的严重性和数据集的有效性。扣分点在于没有提出新的检测模型，且部分生成细节（如LLM提示参数）未公开。</li>
<li>选题价值：1.8/2：选题极具前瞻性和必要性，直指多语言全球化背景下深度伪造检测的关键短板，为社区提供了急需的研究资源，应用潜力大。</li>
<li>开源与复现加成：0.8/1：承诺公开数据集是最大亮点。但代码、模型权重的开源计划不够具体，评估脚本的复现信息也未详细说明，因此给予部分加分。</li>
</ul>
<h1></h1>
<hr>
<p><a href="/audio-paper-digest-blog/posts/iclr2026-summary/">← 返回 ICLR 2026 论文分析</a></p>
]]></content:encoded>
      <category>音视频深度伪造检测</category>
      <category>数据集</category>
      <category>多语言</category>
      <category>零样本</category>
    </item>
  </channel>
</rss>
