📄 Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection – Submission for WildSpoof 2026 TTS Track

#语音合成 #语音伪造检测 #迁移学习 #数据清洗 #鲁棒性

📝 5.2/10 | 后50% | #语音合成 | #迁移学习 | #语音伪造检测 #数据清洗 | arxiv

学术质量 3.7/7 | 影响力 0.8/2 | 可复现性 0.7/2 | 置信度 0.8

👥 作者与机构

未提及。

💡 毒舌点评

首先,作为一篇提交给特定挑战赛的技术报告,其定位本就偏向工程实现和结果汇报,而非追求根本性的算法创新。最大的槽点在于信息完整性缺失严重:作者、所属机构等基本信息均未披露,这对于一篇正式学术论文而言是不可接受的,严重损害了工作的可信度和可追溯性。其次,论文虽然声称“novel”,但其核心贡献——在微调中加入EMA和基于LLM/LALM的数据筛选——在TTS或更广泛的深度学习领域中都已是成熟技术,创新性有限。论文最大的亮点是挑战赛榜单上的最佳a-DCF分数,但这高度依赖于特定的挑战赛设置和评估系统,其普适价值需要更多验证。写作清晰,但部分关键评估细节(如其他参赛模型具体架构)的缺失,使得对比分析的深度大打折扣。

📌 核心摘要

本文为WildSpoof 2026挑战赛TTS赛道的技术报告,提出了F5-TTS-DPS模型。该模型在F5-TTS基础上,通过两项改进提升在真实场景数据上的合成鲁棒性:1)在监督微调中引入指数移动平均(EMA)以稳定训练过程;2)提出双重评分提示选择(DPS)机制,利用大型音频语言模型(LALM,即Qwen2.5-Omni)和大型语言模型(LLM,即Qwen3-30B-A3B)对参考音频和文本提示进行两阶段筛选,以确保输入质量。实验在挑战赛官方开发集上进行,消融实验显示各组件带来性能渐进提升。最终模型在主要评估指标a-DCF上取得所有参赛模型中的最佳成绩,表明其合成语音最难被反欺骗系统检测。

🔗 开源详情

  • 代码:未提供。
  • 模型权重:论文中使用并提供了基线模型F5-TTS v1的权重链接:https://huggingface.co/SWivid/F5-TTS/tree/main/F5TTS_v1_Base。未提供微调后F5-TTS-DPS模型的权重。
  • 数据集:使用了WildSpoof Challenge官方发布的TITW-easy和TITW-hard数据集子集,未提供独立下载链接或开源协议。
  • Demo:未提及在线演示。
  • 复现材料:
    • 训练配置:提供了详细的超参数设置(见“细节详述”部分)。
    • 评估工具:使用VERSA工具进行评估。
    • 提示模板:在附录A中提供了用于音频和文本筛选的完整提示模板(Prompt)。
  • 论文中引用的开源项目:
    1. F5-TTS:基础模型,提供了链接。
    2. Qwen2.5-Omni:用于音频评分的LALM,未提供链接。
    3. Qwen3-30B-A3B:用于文本评分的LLM,未提供链接。
    4. Whisper:用于计算WER的ASR系统,未提供链接。
    5. ESPnet2:用于提取说话人嵌入,未提供链接。
    6. AASIST:用于计算SDS的反欺骗系统,未提供链接。
    7. VERSA:评估工具,未提供链接。

🏗️ 方法概述和架构

本文方法建立在F5-TTS基座模型之上,针对“野外”数据(TITW)的噪声和多样性特点,引入了训练稳定性增强和输入质量优化两个核心组件。

  1. 基础模型:F5-TTS F5-TTS是一个基于流匹配(Flow Matching)技术的大规模非自回归文本到语音基础模型,其架构采用扩散Transformer(DiT)。该模型采用语音克隆范式,输入参考音频(prompt speech)和带掩码的目标文本,通过预测掩码区域来生成目标语音。论文选择此模型作为基座,主要是看中其强大的泛化能力。

  2. 训练稳定性组件:指数移动平均(EMA) 设计动机:论文指出,在嘈杂且多样化的“野外”数据上训练TTS模型会导致训练动态不稳定、梯度波动大,并增加过拟合特定录音伪影的风险。 实现机制:EMA是一种参数更新策略,它在训练过程中维护模型参数的一个滑动平均值。具体而言,每个训练步骤后,当前模型参数 \(\theta\) 会与EMA参数 \(\theta_{\text{ema}}\) 按照公式 \(\theta_{\text{ema}} \leftarrow \beta \cdot \theta_{\text{ema}} + (1-\beta) \cdot \theta\) 进行更新,其中 \(\beta\) 是衰减率(本实验设置为0.99)。这可以平滑参数更新轨迹,使模型收敛更稳定,减少对噪声数据的过拟合,从而提升模型在不同录音质量下的鲁棒性。该组件被无缝集成到F5-TTS的监督微调(SFT)过程中。

  3. 输入质量优化组件:双重评分提示选择(DPS) 设计动机:F5-TTS作为语音克隆模型,其合成质量高度依赖于参考音频(prompt audio)和与之对应的目标文本(target text)的质量与一致性。在噪声数据中,直接随机选取的参考可能质量低劣或与目标文本语义不匹配,导致合成失败或质量下降。 实现架构:DPS采用了一个两阶段、使用不同大模型进行评估的筛选流程。

    • 第一阶段:音频质量评分。使用大型音频语言模型(LALM)Qwen2.5-Omni对候选参考音频进行打分。评估的维度包括三个(见附录A.1提示模板):情感丰富度(Emotional Richness, 4分)、声音表现力(Voice Expressiveness, 3分)、提示适用性(Prompt Suitability, 3分),总分0-10分。该阶段旨在过滤掉表达力弱、不适合用作提示的低质量音频片段。
    • 第二阶段:文本语义对齐验证。使用大型语言模型(LLM)Qwen3-30B-A3B对通过第一阶段筛选的“音频-文本对”进行评估。LLM会接收目标文本和参考文本候选,依据四个维度(见附录A.2提示模板):韵律对齐(Prosodic Alignment)、情感一致性(Emotional Congruence)、语言兼容性(Linguistic Compatibility)以及作为TTS参考的适用性(TTS Reference Suitability),来判断参考文本是否与目标文本在语义、情感和结构上足够匹配,最终选出最佳的参考文本。 数据流与交互:整个DPS机制作用于数据预处理或训练/推理前的准备阶段。它从原始的TITW数据集中筛选出高质量、高对齐度的“参考音频+参考文本”对,用于后续F5-TTS模型的微调或合成。这样,模型在训练时接收到的就是更干净、更一致的监督信号;在推理时,也能使用更优的提示,从而提升最终合成语音的质量和自然度。

💡 核心创新点

  1. 将EMA集成到针对野外数据的TTS微调中:明确强调并验证了EMA对于稳定在噪声数据上训练TTS模型、提升模型鲁棒性的有效性。
  2. 提出双重评分提示选择机制:创新性地结合LALM(评估音频)和LLM(评估文本)进行两阶段的智能数据筛选,以优化语音克隆任务中的关键输入(提示),从而提升合成质量与一致性。

📊 实验结果

论文在WildSpoof 2026 TTS赛道官方开发集(TITW-easy和TITW-hard)上进行了评估。

消融实验(开发集):展示了各组件带来的渐进式提升。

模型配置UTMOS (↑)DNSMOS (↑)WER (↓)SPK-sim (↑)SDS (↓)
CosyVoice23.652.797.760.4030.343
baseline (F5-TTS)3.062.9112.310.4500.283
+ SFT3.062.5410.600.4890.226
+ SFT + EMA3.182.619.320.4920.181
+ SFT + EMA + DPS (F5-TTS-DPS)3.202.618.650.5080.108

表1:WildSpoof 2026 TTS赛道开发集性能。箭头表示指标优化方向。

从表1可见:

  • 相比基线F5-TTS,最终系统F5-TTS-DPS在说话人相似度(SPK-sim)上提升13.0%(0.450 -> 0.508),在欺骗检测得分(SDS)上降低61.8%(0.283 -> 0.108),表明合成语音更像目标说话人且更“自然”(更难被检测为合成)。
  • EMA的引入主要提升了自然度(UTMOS从3.06升至3.18)和可懂度(WER从10.60降至9.32),并小幅提升了说话人相似度。
  • DPS的引入进一步提升了说话人相似度(0.492 -> 0.508)和可懂度(9.32 -> 8.65)。

挑战赛最终结果:在包含“已见说话人”(Seen Speakers)的评估中,与其他参赛系统对比。

Team IDUTMOSDNSMOSWERSPK-sima-DCF (T01/T02/T08)
B012.24292.457230.26N/AN/A
T013.95593.22706.480.25640.0453/0.1782/0.1125
T023.73903.07805.500.35110.0471/0.1232/0.1125
T033.45403.026133.790.47820.0445/0.0294/0.1125
T042.67862.735499.280.23200.0417/0.0266/0.1098
T05 (Ours)3.20162.60788.650.27980.1582/0.5233/0.2562
T063.49092.93369.450.47750.1527/0.3786/0.2292
T073.52922.743420.460.28950.0446/0.0266/0.1125

表2:WildSpoof 2026 TTS赛道结果 - 已见说话人。

关键发现:论文的核心贡献体现在a-DCF这一官方核心指标上。F5-TTS-DPS(T05)在T01、T02、T08三个高级反欺骗系统上均取得了最高的a-DCF分数(0.1582/0.5233/0.2562)。a-DCF用于评估合成语音的反欺骗鲁棒性,分数越高表明该合成语音越难被检测为伪造。因此,尽管该模型在某些传统TTS指标(如UTMOS、SPK-sim)上并非最高,但它在“以假乱真”的欺骗能力上是所有提交模型中最强的。

🔬 细节详述

  • 数据集:使用WildSpoof挑战赛官方发布的TITW-easy和TITW-hard两个子集进行微调和评估。
  • 训练配置:全参数微调。最大序列数64,批大小38,400帧/设备,EMA衰减率β=0.99,训练10个epoch,学习率1e-6,预热更新20,000次,梯度累积步数1,梯度裁剪(最大范数1.0)。
  • 评估工具:使用VERSA工具套件进行客观评估。说话人嵌入使用ESPnet2提取,ASR使用Whisper计算WER,欺骗检测使用在ASVspoof 2019 LA上训练的AASIST模型计算SDS。a-DCF由挑战赛官方提供评估。
  • 基线对比:在消融实验中,将CosyVoice2作为参考基线。F5-TTS基线在说话人相似度和音频真实感上已优于CosyVoice2。
  • 自我评估:论文指出最终模型UTMOS为3.20,SPK-sim为0.508,WER为8.65%,在a-DCF上取得最佳成绩。

⚖️ 评分理由

  • 创新性 (3分中的1分):EMA在微调中的应用是已知技术,DPS机制虽然结合了LALM和LLM进行多模态筛选具有一定新颖性,但本质上是现有大模型能力的应用组合,非底层算法创新。工作更偏重于有效的工程组合和在特定竞赛设定下取得好结果。
  • 技术严谨性 (1.5分中的1分):方法描述清晰,实验设置详细(如超参数)。但缺少关键对比信息,例如未说明其他参赛团队(如T01、T06)可能采用了何种不同技术路线,使得“最佳”的结论语境受限。对EMA和DPS各自作用的机制分析稍显表面,更多是结果驱动。
  • 实验充分性 (1.5分中的1分):包含消融实验,清晰展示了各组件贡献。在挑战赛框架内,对比了其他系统。局限在于:1) 所有实验仅在挑战赛官方开发集上进行,未在独立数据集上验证泛化性;2) 缺乏对TITW数据集噪声特性(如环境类型、说话风格)与模型鲁棒性关系的深入分析;3) 未提供人工主观评测(MOS)的统计显著性。
  • 清晰度 (1分中的0.7分):论文结构完整,逻辑清晰,图表(表格)信息明确。但部分技术细节(如Qwen2.5-Omni和Qwen3-30B-A3B的具体评估提示未在正文表格给出,仅放附录)需要在正文中更突出强调。作者与机构信息缺失是重大瑕疵。
  • 影响力 (2分中的0.8分):作为挑战赛技术报告,其主要影响力在于为参赛者和组织者提供了一个有效的技术方案参考,对提升该特定任务上的SOTA有贡献。但受限于竞赛场景,其提出的通用性有限。a-DCF指标的高度特异性也降低了对更广泛社区的吸引力。
  • 开源 (1.5分中的0.5分):明确提供了基线模型F5-TTS的Hugging Face链接。但未提供自己模型的代码、训练脚本、数据筛选脚本或筛选后的数据集。所依赖的外部工具(Qwen, Whisper, ESPnet2, VERSA)均未提供链接,复现门槛较高。
  • 可复现性 (0.5分中的0.2分):提供了详细的超参数和训练配置,这是可复现的关键一步。但由于代码、数据筛选流程和最终模型权重均未开源,加上对外部大模型的具体版本和使用细节的依赖,使得完全复现论文结果非常困难。

🚨 局限与问题

  1. 方法的泛化性存疑:整个方法高度依赖于WildSpoof挑战赛提供的特定数据集(TITW)和评估协议(a-DCF)。DPS机制的有效性可能与Qwen系列模型对特定语言、口音和情感的评分偏好强相关,其在其他语种或领域数据上的效果未知。EMA的稳定性增益是否在其他更纯净的TTS数据集上依然显著,也未得到验证。
  2. 评估的局限性与片面性:论文将a-DCF(反欺骗检测代价)作为核心胜利指标,这固然符合挑战赛目标,但可能掩盖了模型在传统TTS质量指标(如自然度UTMOS、DNSMOS)上并非最优的事实。例如,其UTMOS(3.20)和DNSMOS(2.61)低于多个其他参赛系统(如T01, T06, T07)。这意味着模型可能更擅长“欺骗”特定检测器,但未必在整体听感上最自然、最令人愉悦。论文对“自然”和“难检测”之间的权衡分析不足。
  3. DPS机制的潜在偏差与成本:引入Qwen2.5-Omni和Qwen3-30B-A3B进行数据筛选,带来了显著的计算开销和外部依赖。这些大模型的评分标准(见附录提示)可能引入隐含偏差,例如可能偏好某种特定类型的“富有表现力”的语音,从而无意中筛选掉了某些真实、平淡但合法的语音样本,影响了训练数据的多样性。筛选过程本身的质量未被独立评估。
  4. 缺乏对失败案例的分析:论文仅展示了整体指标的提升,未分析在哪些具体场景或说话人类型上模型改进有限甚至失败。例如,对于极端的口音、背景噪音或非典型语音模式,该方法的表现如何?这对于理解方法的边界至关重要。
  5. 结论声明略显绝对:摘要中声称模型“exhibits the highest degree of naturalness and authenticity”,但如前所述,其UTMOS/DNSMOS并非最高。更准确的结论应是“在给定的反欺骗评估系统下,其合成语音被判定为真实的可能性最高”,而非绝对意义上的“最自然”。这种表述可能过度解读了指标含义。

← 返回 2026-05-25 语音/音乐/音频论文速递