Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection -- Submission for WildSpoof 2026 TTS Track
📄 Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection – Submission for WildSpoof 2026 TTS Track #语音合成 #语音伪造检测 #迁移学习 #数据清洗 #鲁棒性 📝 5.2/10 | 后50% | #语音合成 | #迁移学习 | #语音伪造检测 #数据清洗 | arxiv 学术质量 3.7/7 | 影响力 0.8/2 | 可复现性 0.7/2 | 置信度 0.8 👥 作者与机构 未提及。 💡 毒舌点评 首先,作为一篇提交给特定挑战赛的技术报告,其定位本就偏向工程实现和结果汇报,而非追求根本性的算法创新。最大的槽点在于信息完整性缺失严重:作者、所属机构等基本信息均未披露,这对于一篇正式学术论文而言是不可接受的,严重损害了工作的可信度和可追溯性。其次,论文虽然声称“novel”,但其核心贡献——在微调中加入EMA和基于LLM/LALM的数据筛选——在TTS或更广泛的深度学习领域中都已是成熟技术,创新性有限。论文最大的亮点是挑战赛榜单上的最佳a-DCF分数,但这高度依赖于特定的挑战赛设置和评估系统,其普适价值需要更多验证。写作清晰,但部分关键评估细节(如其他参赛模型具体架构)的缺失,使得对比分析的深度大打折扣。 📌 核心摘要 本文为WildSpoof 2026挑战赛TTS赛道的技术报告,提出了F5-TTS-DPS模型。该模型在F5-TTS基础上,通过两项改进提升在真实场景数据上的合成鲁棒性:1)在监督微调中引入指数移动平均(EMA)以稳定训练过程;2)提出双重评分提示选择(DPS)机制,利用大型音频语言模型(LALM,即Qwen2.5-Omni)和大型语言模型(LLM,即Qwen3-30B-A3B)对参考音频和文本提示进行两阶段筛选,以确保输入质量。实验在挑战赛官方开发集上进行,消融实验显示各组件带来性能渐进提升。最终模型在主要评估指标a-DCF上取得所有参赛模型中的最佳成绩,表明其合成语音最难被反欺骗系统检测。 🔗 开源详情 代码:未提供。 模型权重:论文中使用并提供了基线模型F5-TTS v1的权重链接:https://huggingface.co/SWivid/F5-TTS/tree/main/F5TTS_v1_Base。未提供微调后F5-TTS-DPS模型的权重。 数据集:使用了WildSpoof Challenge官方发布的TITW-easy和TITW-hard数据集子集,未提供独立下载链接或开源协议。 Demo:未提及在线演示。 复现材料: 训练配置:提供了详细的超参数设置(见“细节详述”部分)。 评估工具:使用VERSA工具进行评估。 提示模板:在附录A中提供了用于音频和文本筛选的完整提示模板(Prompt)。 论文中引用的开源项目: F5-TTS:基础模型,提供了链接。 Qwen2.5-Omni:用于音频评分的LALM,未提供链接。 Qwen3-30B-A3B:用于文本评分的LLM,未提供链接。 Whisper:用于计算WER的ASR系统,未提供链接。 ESPnet2:用于提取说话人嵌入,未提供链接。 AASIST:用于计算SDS的反欺骗系统,未提供链接。 VERSA:评估工具,未提供链接。 🏗️ 方法概述和架构 本文方法建立在F5-TTS基座模型之上,针对“野外”数据(TITW)的噪声和多样性特点,引入了训练稳定性增强和输入质量优化两个核心组件。 ...