Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection -- Submission for WildSpoof 2026 TTS Track

📄 Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection – Submission for WildSpoof 2026 TTS Track #语音合成 #语音伪造检测 #迁移学习 #数据清洗 #鲁棒性 📝 5.2/10 | 后50% | #语音合成 | #迁移学习 | #语音伪造检测 #数据清洗 | arxiv 学术质量 3.7/7 | 影响力 0.8/2 | 可复现性 0.7/2 | 置信度 0.8 👥 作者与机构 未提及。 💡 毒舌点评 首先,作为一篇提交给特定挑战赛的技术报告,其定位本就偏向工程实现和结果汇报,而非追求根本性的算法创新。最大的槽点在于信息完整性缺失严重:作者、所属机构等基本信息均未披露,这对于一篇正式学术论文而言是不可接受的,严重损害了工作的可信度和可追溯性。其次,论文虽然声称“novel”,但其核心贡献——在微调中加入EMA和基于LLM/LALM的数据筛选——在TTS或更广泛的深度学习领域中都已是成熟技术,创新性有限。论文最大的亮点是挑战赛榜单上的最佳a-DCF分数,但这高度依赖于特定的挑战赛设置和评估系统,其普适价值需要更多验证。写作清晰,但部分关键评估细节(如其他参赛模型具体架构)的缺失,使得对比分析的深度大打折扣。 📌 核心摘要 本文为WildSpoof 2026挑战赛TTS赛道的技术报告,提出了F5-TTS-DPS模型。该模型在F5-TTS基础上,通过两项改进提升在真实场景数据上的合成鲁棒性:1)在监督微调中引入指数移动平均(EMA)以稳定训练过程;2)提出双重评分提示选择(DPS)机制,利用大型音频语言模型(LALM,即Qwen2.5-Omni)和大型语言模型(LLM,即Qwen3-30B-A3B)对参考音频和文本提示进行两阶段筛选,以确保输入质量。实验在挑战赛官方开发集上进行,消融实验显示各组件带来性能渐进提升。最终模型在主要评估指标a-DCF上取得所有参赛模型中的最佳成绩,表明其合成语音最难被反欺骗系统检测。 🔗 开源详情 代码:未提供。 模型权重:论文中使用并提供了基线模型F5-TTS v1的权重链接:https://huggingface.co/SWivid/F5-TTS/tree/main/F5TTS_v1_Base。未提供微调后F5-TTS-DPS模型的权重。 数据集:使用了WildSpoof Challenge官方发布的TITW-easy和TITW-hard数据集子集,未提供独立下载链接或开源协议。 Demo:未提及在线演示。 复现材料: 训练配置:提供了详细的超参数设置(见“细节详述”部分)。 评估工具:使用VERSA工具进行评估。 提示模板:在附录A中提供了用于音频和文本筛选的完整提示模板(Prompt)。 论文中引用的开源项目: F5-TTS:基础模型,提供了链接。 Qwen2.5-Omni:用于音频评分的LALM,未提供链接。 Qwen3-30B-A3B:用于文本评分的LLM,未提供链接。 Whisper:用于计算WER的ASR系统,未提供链接。 ESPnet2:用于提取说话人嵌入,未提供链接。 AASIST:用于计算SDS的反欺骗系统,未提供链接。 VERSA:评估工具,未提供链接。 🏗️ 方法概述和架构 本文方法建立在F5-TTS基座模型之上,针对“野外”数据(TITW)的噪声和多样性特点,引入了训练稳定性增强和输入质量优化两个核心组件。 ...

2026-05-25 · 更新于 2026-06-12 · 2 min · 320 words

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations

📄 UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations #语音识别 #数据集 #多语言 #低资源 #数据清洗 ✅ 7/10 | 前25% | #语音识别 | #数据集 | #多语言 #低资源 | arxiv 学术质量 5.8/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Attia Nafees ul Haq (Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University) 通讯作者:Attia Nafees ul Haq, Lei Xie (邮箱:attianafees@mail.nwpu.edu.cn, lxie@nwpu.edu.cn) 作者列表:Attia Nafees ul Haq (ASLP@NPU, Northwestern Polytechnical University), Zeyu Zhu (ASLP@NPU, Northwestern Polytechnical University), Jingbin Hu (ASLP@NPU, Northwestern Polytechnical University), ChunJiang He (ASLP@NPU, Northwestern Polytechnical University), Lei Xie (ASLP@NPU, Northwestern Polytechnical University) 💡 毒舌点评 亮点:针对乌尔都语这一“高人口、低资源”语言,首次系统构建了包含156小时音频、12维副语言标注的大规模开放语料库,有效解决了RTL脚本和代码切换两大处理难题,为相关研究提供了关键基础设施。短板:论文核心贡献是数据集及数据整理流水线,但对流水线核心组件(尤其是基于Gemini的提示工程)的细节描述和消融分析不足,更像一份详尽的工程报告。更关键的是,所有转录和标注质量都深度绑定一个闭源商业模型(Gemini 2.5 Pro),其长期可及性、结果一致性和完全可复现性存疑,这构成了方法论上的根本性弱点。 ...

2026-05-19 · 更新于 2026-06-12 · 2 min · 386 words

FSD50K-Solo: Automated Curation of Single-Source Sound Events

📄 FSD50K-Solo: Automated Curation of Single-Source Sound Events #数据清洗 #数据集 #音频事件检测 #预训练 #扩散模型 #音频生成 #自监督学习 📝 5.5/10 | 前50% | #数据清洗 | #扩散模型 #预训练 | #数据集 #音频事件检测 | arxiv 学术质量 4.3/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Ningyuan Yang(论文指出工作在Bose Corporation实习期间完成) 通讯作者:未提及 作者列表:Ningyuan Yang, Sile Yin, Li-Chia Yang, Bryce Irvin, Xiao Quan, Marko Stamenovic, Shuo Zhang(论文未单独列出各作者机构,仅说明第一作者实习于Bose) 💡 毒舌点评 本文针对大规模音频数据集FSD50K中普遍存在的标签噪声(多源样本)问题,提出了一个结合扩散模型生成与预训练编码器判别的自动化清洗流水线。其工程思路清晰,发布的FSD50K-Solo数据集可能对社区有一定实用价值。然而,论文的核心缺陷在于创新性不足(仅为现有模块的组合应用)与评估的严重封闭性(关键验证依赖于未公开的内部数据集BSE)。这使得论文的贡献更接近一项有限的系统集成工作,而非具有广泛影响力的算法突破,其宣称的“可扩展范式”因缺乏充分、公开的验证而显得说服力不足。 📌 核心摘要 问题:大规模开源音频数据集(如FSD50K)普遍存在标签噪声,包含大量背景干扰或事件重叠的多源样本,影响下游模型训练。目前缺乏大规模、强标注的单源声音事件数据集。 方法:提出一个自动化数据清洗框架。首先,利用生成式扩散模型(Stable Audio Open)基于单源类别标签合成干净音频,并构建可控噪声混合物作为训练数据;其次,使用在AudioSet上自监督预训练的BEATs音频编码器提取特征,结合Bi-LSTM和MLP训练一个二分类器,用于区分单源与多源样本;最终,用该分类器过滤FSD50K,得到子集FSD50K-Solo。 新意:与以往依赖众包人工评分(如PP)或特定领域信号处理(如WADA)的方法不同,本文提出了一种结合生成模型创造监督信号与预训练模型强大表征能力的通用数据清洗框架,旨在适用于一般声音事件。 实验结果:在内部专家标注的BSE测试集上,分类器达到95.51%准确率、98.58%精确率。在FSD50K上,被模型判定为单源的样本在Audiobox Aesthetics的复杂度(PC)和质量(PQ)分数上显著优于多源样本(Table II)。FSD50K-Solo最终包含约32,880个样本。 意义:为音频领域提供了一种自动清洗数据集的可行方案,发布了FSD50K-Solo元数据,可能为声源分离、可控音频生成等需要干净音频的任务提供更高质的资源。 局限性:方法组件为现有技术组合,创新有限;评估严重依赖非公开的内部数据集,可复现性与可比性差;未探索模型在未见类别上的泛化能力。 🔗 开源详情 代码:论文未提供当前可下载的代码仓库。论文中提到使用的BEATs模型引用自https://github.com/microsoft/unilm/tree/master/beats。 模型权重:论文未提供其训练的分类器模型的权重。使用的BEATs和Stable Audio Open 1.0为第三方模型。 数据集: FSD50K-Solo:论文明确表示将在论文被接受后公开数据集及其完整片段级元数据。当前未提供下载链接。 BSE数据集:内部数据集,未公开。 TAU Urban Acoustic Scenes 数据集:论文引用并提供了出处链接:https://zenodo.org/record/45739。 FSD50K:论文中研究的主要数据集,提供了项目主页链接:https://zenodo.org/record/4060432。 Demo:未提及。 复现材料:论文提供了详细的训练配置(优化器、学习率、损失函数等)和评估指标。但未提及是否提供训练检查点或完整复现脚本。当前信息不足以独立复现。 🏗️ 方法概述和架构 整体流程概述:这是一个多阶段的自动化数据清洗流水线,核心目标是训练一个能够区分“单源声音事件”和“多源声音事件”的二分类器。流水线分为两大阶段:(1) 合成带有已知标签的训练数据;(2) 基于预训练编码器的分类器设计与训练,最终应用于真实数据集清洗。 ...

2026-05-15 · 更新于 2026-06-12 · 2 min · 354 words

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation #多模态模型 #基准测试 #数据清洗 #后训练 #评测协议 📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv 学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度 中 👥 作者与机构 第一作者:Che Liu (根据作者列表顺序推断) 通讯作者:Fei Tian (tianfei@stepfun.com, StepFun) 作者列表:Che Liu (StepFun, Imperial College London), Lichao Ma (StepFun, Peking University), Xiangyu Tony Zhang (StepFun, The University of New South Wales), Yuxin Zhang (StepFun, Shanghai Jiao Tong University), Haoyang Zhang (StepFun, Peking University), Xuerui Yang (StepFun), Fei Tian (StepFun, 通讯作者) 💡 毒舌点评 论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高,并为此提出了系统化的去偏评测协议(OmniClean),这为社区提供了急需的、更干净的评估工具,具有明确的实用价值;然而,作为核心方法贡献的OmniBoost方案,本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优,缺乏在算法或模型架构层面的根本性创新,且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上,极大地削弱了其结论的普适性与指导意义。 ...

2026-05-13 · 更新于 2026-06-12 · 3 min · 568 words

PianoCoRe: Combined and Refined Piano MIDI Dataset

📄 PianoCoRe: Combined and Refined Piano MIDI Dataset #数据集 #数据清洗 #音乐信息检索 #钢琴表演建模 ✅ 7.5/10 | 前25% | #数据集 | #数据清洗 | #音乐信息检索 #钢琴表演建模 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ilya Borovik(Skolkovo Institute of Science and Technology, Moscow, Russia) 通讯作者:未说明(论文中未明确指定通讯作者) 作者列表:Ilya Borovik(Skolkovo Institute of Science and Technology, Moscow, Russia) 💡 毒舌点评 亮点:该工作最大的价值在于其卓越的系统工程和开源精神——将零散、杂乱的现有钢琴MIDI语料库整合、清洗、对齐成一个开箱即用、分层合理的数据集,并配套发布了高质量的质量分类器和对齐优化工具,极大地降低了后续研究者的门槛。短板:核心创新更偏向“数据料理”而非“算法突破”,例如质量分类器和对齐精炼的启发式规则虽然有效,但方法本身缺乏更强的理论深度或新颖性,在某种程度上更像是一篇详尽的“技术手册”或“最佳实践指南”。 📌 核心摘要 要解决什么问题:现有的钢琴符号音乐数据集存在覆盖范围窄、缺乏多样性、缺少音符级对齐、命名格式不一致等问题,阻碍了大规模、高质量的钢琴表演分析与建模研究。 方法核心是什么:论文构建了PianoCoRe数据集,其核心方法包括:a) 一套多阶段、自动化的数据匹配与整合流程,将多个现有数据集(ASAP, ATEPP, GiantMIDI-Piano, PERiScoPe, Aria-MIDI)合并;b) 一个训练的MIDI质量分类器,用于识别损坏和类乐谱的转录;c) 一个名为RAScoP的对齐精炼流水线,用于清理时间对齐错误并插值缺失音符。 与已有方法相比新在哪里:新在首次将多个主流开源钢琴数据集整合并去重,发布为具有清晰层级(C/B/A/A*)的数据集,覆盖不同应用场景需求,这是之前不存在的。同时,配套的质量分类和对齐精炼工具链是此前缺乏的、易用的开源解决方案。 主要实验结果: MIDI质量分类器在平衡测试集上的宏平均F1分数达到89.1%。 ...

2026-05-08 · 更新于 2026-06-12 · 4 min · 813 words