Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech
📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech #语音合成 #扩散模型 #数据集 #基准测试 #开源 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度 高 👥 作者与机构 第一作者:Semin Kim(首尔国立大学;KRAFTON) 通讯作者:未说明 作者列表:Semin Kim(首尔国立大学;KRAFTON),Seungjun Chung(KRAFTON),Taehong Moon(KRAFTON),Sangheon Lee(KRAFTON;韩国科学技术院),Minyoung Ahn(KRAFTON;首尔国立大学),Keon Lee(KRAFTON),Nam Soo Kim(首尔国立大学),Jaewoong Cho(KRAFTON),Ludwig Schmidt(斯坦福大学),Kangwook Lee(KRAFTON;Ludo Robotics;威斯康星大学麦迪逊分校),Dongmin Park(KRAFTON)。 💡 毒舌点评 亮点:论文在推动TTS研究开源化和可复现性方面堪称典范,提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池(Raon-OpenTTS-Pool)和有效的数据过滤策略,为社区提供了宝贵的研究资源。 短板:模型架构方面毫无创新,完全沿用F5-TTS的DiT框架,核心贡献高度依赖于“数据工程”和规模效应,技术深度有限。这在一定程度上削弱了其在算法层面的贡献。 📌 核心摘要 问题:当前顶尖的TTS模型(如Qwen3-TTS, CosyVoice 3)性能卓越,但其训练数据和处理流程不公开,阻碍了研究的可复现性和系统性进步。现有开源TTS模型(如基于Emilia训练的F5-TTS、MaskGCT)与闭源SOTA模型在性能上仍有差距。 方法核心:构建了Raon-OpenTTS-Pool(615K小时英语语音数据池,整合自11个公开数据源),并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线,从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集,作者沿用F5-TTS的扩散Transformer(DiT)架构(不作修改),训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外,提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准(涵盖Clean、Noisy、Wild、Expressive四种条件)。 新意:其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同,本文证明了通过精心构建、过滤的大规模多源开源数据,可以显著提升现有TTS架构的性能,并建立了完整的开源研究基础设施(数据、模型、评估)。 结果:在Seed-TTS-Eval上,Raon-OpenTTS-1B的WER为1.78%,SIM为0.749,在开源模型中分别排名第二和第一。在CV3-Hard-EN上,其WER(6.15%)和SIM(0.775)均为最佳。在自建的Raon-OpenTTS-Eval上,Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳,并在人工评估中取得第二好的CMOS分数。 意义:证明了使用大规模、经过筛选的开源数据,可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型,极大地促进了该领域的透明化、可复现研究。 局限:模型架构本身无创新;当前研究仅限于英语;数据过滤策略可能较为保守,未来可探索数据修正;多源数据混合策略有优化空间。 🔗 开源详情 代码:https://github.com/krafton-ai/RAON-OpenTTS 模型权重:论文明确承诺公开“训练代码和检查点”,因此模型权重可通过上述GitHub仓库获取。 数据集: 数据集名称:Raon-OpenTTS-Pool,一个包含61.5万小时英语语音的大型开放数据池,聚合自11个公开语料库和网络录制。 数据集名称:Raon-OpenTTS-Core,是从Raon-OpenTTS-Pool中筛选出的高质量子集(51万小时,1.94亿语音片段)。 获取方式:论文明确承诺公开“数据池和过滤流程”,因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。 Demo:论文中未提及。 复现材料:论文中提到了公开的“训练代码和检查点”,因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。 论文中引用的开源项目: UVR-MDX(用于音源分离):https://github.com/Anjok07/ultimatevocalremovergui PyAnnote 3.1(用于说话人分割):https://huggingface.co/pyannote/speaker-diarization-3.1 Silero VAD(用于语音活动检测):https://github.com/snakers4/silero-vad Whisper-large-v3(用于自动转录):https://huggingface.co/openai/whisper-large-v3 HiFi-GAN(用于波形合成):https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz 🏗️ 方法概述和架构 本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线,其核心流程为:聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。 ...