Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech

📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech #语音合成 #扩散模型 #数据集 #基准测试 #开源 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度 高 👥 作者与机构 第一作者:Semin Kim(首尔国立大学;KRAFTON) 通讯作者:未说明 作者列表:Semin Kim(首尔国立大学;KRAFTON),Seungjun Chung(KRAFTON),Taehong Moon(KRAFTON),Sangheon Lee(KRAFTON;韩国科学技术院),Minyoung Ahn(KRAFTON;首尔国立大学),Keon Lee(KRAFTON),Nam Soo Kim(首尔国立大学),Jaewoong Cho(KRAFTON),Ludwig Schmidt(斯坦福大学),Kangwook Lee(KRAFTON;Ludo Robotics;威斯康星大学麦迪逊分校),Dongmin Park(KRAFTON)。 💡 毒舌点评 亮点:论文在推动TTS研究开源化和可复现性方面堪称典范,提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池(Raon-OpenTTS-Pool)和有效的数据过滤策略,为社区提供了宝贵的研究资源。 短板:模型架构方面毫无创新,完全沿用F5-TTS的DiT框架,核心贡献高度依赖于“数据工程”和规模效应,技术深度有限。这在一定程度上削弱了其在算法层面的贡献。 📌 核心摘要 问题:当前顶尖的TTS模型(如Qwen3-TTS, CosyVoice 3)性能卓越,但其训练数据和处理流程不公开,阻碍了研究的可复现性和系统性进步。现有开源TTS模型(如基于Emilia训练的F5-TTS、MaskGCT)与闭源SOTA模型在性能上仍有差距。 方法核心:构建了Raon-OpenTTS-Pool(615K小时英语语音数据池,整合自11个公开数据源),并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线,从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集,作者沿用F5-TTS的扩散Transformer(DiT)架构(不作修改),训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外,提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准(涵盖Clean、Noisy、Wild、Expressive四种条件)。 新意:其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同,本文证明了通过精心构建、过滤的大规模多源开源数据,可以显著提升现有TTS架构的性能,并建立了完整的开源研究基础设施(数据、模型、评估)。 结果:在Seed-TTS-Eval上,Raon-OpenTTS-1B的WER为1.78%,SIM为0.749,在开源模型中分别排名第二和第一。在CV3-Hard-EN上,其WER(6.15%)和SIM(0.775)均为最佳。在自建的Raon-OpenTTS-Eval上,Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳,并在人工评估中取得第二好的CMOS分数。 意义:证明了使用大规模、经过筛选的开源数据,可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型,极大地促进了该领域的透明化、可复现研究。 局限:模型架构本身无创新;当前研究仅限于英语;数据过滤策略可能较为保守,未来可探索数据修正;多源数据混合策略有优化空间。 🔗 开源详情 代码:https://github.com/krafton-ai/RAON-OpenTTS 模型权重:论文明确承诺公开“训练代码和检查点”,因此模型权重可通过上述GitHub仓库获取。 数据集: 数据集名称:Raon-OpenTTS-Pool,一个包含61.5万小时英语语音的大型开放数据池,聚合自11个公开语料库和网络录制。 数据集名称:Raon-OpenTTS-Core,是从Raon-OpenTTS-Pool中筛选出的高质量子集(51万小时,1.94亿语音片段)。 获取方式:论文明确承诺公开“数据池和过滤流程”,因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。 Demo:论文中未提及。 复现材料:论文中提到了公开的“训练代码和检查点”,因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。 论文中引用的开源项目: UVR-MDX(用于音源分离):https://github.com/Anjok07/ultimatevocalremovergui PyAnnote 3.1(用于说话人分割):https://huggingface.co/pyannote/speaker-diarization-3.1 Silero VAD(用于语音活动检测):https://github.com/snakers4/silero-vad Whisper-large-v3(用于自动转录):https://huggingface.co/openai/whisper-large-v3 HiFi-GAN(用于波形合成):https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz 🏗️ 方法概述和架构 本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线,其核心流程为:聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 542 words

Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks

📄 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks #大语言模型 #参数高效微调 #问答 #数学推理 #开源 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv 学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中未明确标注第一作者) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Zongqian Li(未说明所属机构),Yixuan Su(未说明所属机构),Han Zhou(未说明所属机构),Zihao Fu(未说明所属机构),Nigel Collier(未说明所属机构) 💡 毒舌点评 亮点:论文的核心贡献——在训练和推理阶段均保持输入自适应的动态秩分配——被设计得非常巧妙,且通过与DyLoRA+的对照实验,清晰地论证了“训练-推理动态一致性”对复杂推理任务的重要性,这一观察颇具启发性。实验覆盖了文本理解和语音任务,展现了方法的通用潜力。 短板:创新性主要在于将“动态秩”与“输入感知路由器”相结合,属于对LoRA家族的优化而非范式变革。此外,路由器的引入无疑增加了模型复杂度和训练开销,但论文对其自身的计算成本和可能引入的偏差讨论较少,理论分析稍显单薄。 🔗 开源详情 代码:https://github.com/ZongqianLi/Flexi-LoRA 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 补充信息 [作者与机构] 补充:论文在结尾的致谢部分明确列出了全部作者的邮箱地址。第一作者为Zongqian Li (zl452@cam.ac.uk),通讯作者为Nigel Collier (nc293@cam.ac.uk)。所有作者均隶属于剑桥大学。 [核心摘要] 补充:论文在摘要和结论中均强调,Flexi-LoRA的输入自适应分配使其能够“成功解决一些静态LoRA即使使用等效秩也无法解决的复杂问题”(如图1所示)。此外,论文指出成功适应不仅体现在正确性上,还体现在推理质量和指令遵循上,这一点在数学推理任务中尤为明显。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 413 words