📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech
#语音合成 #扩散模型 #数据集 #基准测试 #开源
🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv
学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度 高
👥 作者与机构
- 第一作者:Semin Kim(首尔国立大学;KRAFTON)
- 通讯作者:未说明
- 作者列表:Semin Kim(首尔国立大学;KRAFTON),Seungjun Chung(KRAFTON),Taehong Moon(KRAFTON),Sangheon Lee(KRAFTON;韩国科学技术院),Minyoung Ahn(KRAFTON;首尔国立大学),Keon Lee(KRAFTON),Nam Soo Kim(首尔国立大学),Jaewoong Cho(KRAFTON),Ludwig Schmidt(斯坦福大学),Kangwook Lee(KRAFTON;Ludo Robotics;威斯康星大学麦迪逊分校),Dongmin Park(KRAFTON)。
💡 毒舌点评
亮点:论文在推动TTS研究开源化和可复现性方面堪称典范,提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池(Raon-OpenTTS-Pool)和有效的数据过滤策略,为社区提供了宝贵的研究资源。 短板:模型架构方面毫无创新,完全沿用F5-TTS的DiT框架,核心贡献高度依赖于“数据工程”和规模效应,技术深度有限。这在一定程度上削弱了其在算法层面的贡献。
📌 核心摘要
- 问题:当前顶尖的TTS模型(如Qwen3-TTS, CosyVoice 3)性能卓越,但其训练数据和处理流程不公开,阻碍了研究的可复现性和系统性进步。现有开源TTS模型(如基于Emilia训练的F5-TTS、MaskGCT)与闭源SOTA模型在性能上仍有差距。
- 方法核心:构建了Raon-OpenTTS-Pool(615K小时英语语音数据池,整合自11个公开数据源),并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线,从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集,作者沿用F5-TTS的扩散Transformer(DiT)架构(不作修改),训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外,提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准(涵盖Clean、Noisy、Wild、Expressive四种条件)。
- 新意:其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同,本文证明了通过精心构建、过滤的大规模多源开源数据,可以显著提升现有TTS架构的性能,并建立了完整的开源研究基础设施(数据、模型、评估)。
- 结果:在Seed-TTS-Eval上,Raon-OpenTTS-1B的WER为1.78%,SIM为0.749,在开源模型中分别排名第二和第一。在CV3-Hard-EN上,其WER(6.15%)和SIM(0.775)均为最佳。在自建的Raon-OpenTTS-Eval上,Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳,并在人工评估中取得第二好的CMOS分数。
- 意义:证明了使用大规模、经过筛选的开源数据,可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型,极大地促进了该领域的透明化、可复现研究。
- 局限:模型架构本身无创新;当前研究仅限于英语;数据过滤策略可能较为保守,未来可探索数据修正;多源数据混合策略有优化空间。
🔗 开源详情
- 代码:https://github.com/krafton-ai/RAON-OpenTTS
- 模型权重:论文明确承诺公开“训练代码和检查点”,因此模型权重可通过上述GitHub仓库获取。
- 数据集:
- 数据集名称:Raon-OpenTTS-Pool,一个包含61.5万小时英语语音的大型开放数据池,聚合自11个公开语料库和网络录制。
- 数据集名称:Raon-OpenTTS-Core,是从Raon-OpenTTS-Pool中筛选出的高质量子集(51万小时,1.94亿语音片段)。
- 获取方式:论文明确承诺公开“数据池和过滤流程”,因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。
- Demo:论文中未提及。
- 复现材料:论文中提到了公开的“训练代码和检查点”,因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。
- 论文中引用的开源项目:
- UVR-MDX(用于音源分离):https://github.com/Anjok07/ultimatevocalremovergui
- PyAnnote 3.1(用于说话人分割):https://huggingface.co/pyannote/speaker-diarization-3.1
- Silero VAD(用于语音活动检测):https://github.com/snakers4/silero-vad
- Whisper-large-v3(用于自动转录):https://huggingface.co/openai/whisper-large-v3
- HiFi-GAN(用于波形合成):https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz
🏗️ 方法概述和架构
本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线,其核心流程为:聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。
1. 整体流程概述 系统输入是11个公开的英语语音数据集(包括YouTube-Commons和其他10个数据集),输出是训练好的TTS模型和一套评估基准。流程分为三个主要阶段:数据池构建(Raon-OpenTTS-Pool)、数据过滤(Raon-OpenTTS-Core)和模型训练(Raon-OpenTTS)。
2. 主要组件/模块详解
- 数据聚合模块(Raon-OpenTTS-Pool构建):将来自YouTube-Commons(335K小时)和其他10个公开数据集(如Emilia、LibriHeavy、GigaSpeech等)的数据进行汇总。所有数据被统一处理为16kHz单声道、时长在3到30秒之间的语音片段,并使用Opus格式(64kbps)存储以节省空间。对于多语言数据集(如Emilia, VoxPopuli),仅提取其英语子集。
- YouTube-Commons预处理流水线:这是处理网络原始数据的核心组件,因为YouTube-Commons原始数据为长时录音(15分钟至数小时)且转录可能不可靠。该流水线包含五个子步骤:
- (a) 音频标准化与响度归一化:重采样至16kHz单声道并归一化响度。
- (b) 声源分离(UVR-MDX):抑制背景音乐和非人声成分,以提升下游任务的鲁棒性。
- (c) 说话人日志(PyAnnote 3.1):估计说话人边界,确保每个片段为单人主导。
- (d) 语音活动检测(Silero VAD):切分连续语音区域为3-30秒片段。
- (e) 自动转录与过滤(Whisper-large-v3):为每个片段生成转录文本,并移除转录长度相对于音频时长异常短的样本(通常表示对齐失败)。
- 质量过滤模块(构建Raon-OpenTTS-Core):从Raon-OpenTTS-Pool中筛选高质量子集。它采用模型化过滤,基于三个信号对每个语音片段打分并排序:
- WER过滤:使用Whisper-small计算ASR转录文本与原始标注文本的词错误率,高WER表明转录不可靠或语音质量差。
- DNSMOS过滤:使用DNSMOS模型预测语音的感知质量得分,低分表示有噪声或失真。
- 语音比例(SR)过滤:使用Silero VAD计算片段中活跃语音帧的比例,低SR表示包含过多静音、音乐或非语音内容。 论文最终采用组合过滤策略:计算片段在上述三个指标上的绝对排名,取三个排名的平均值作为综合得分,然后移除综合排名最低15%的片段。这是一种保守但稳健的策略。
- 模型架构(Raon-OpenTTS):核心是扩散Transformer(DiT),用于从文本到梅尔频谱的零样本TTS生成。论文明确采用F5-TTS的原始架构,不作修改,以隔离数据规模和覆盖范围带来的影响。模型分为0.3B和1B两个规模,通过调整Transformer的层数、注意力头数和维度来缩放(详见附录表11)。文本在字符级别进行编码(词汇表大小5,512),语音使用80维对数梅尔频谱图表示(采样率16kHz,帧移256)。波形生成使用预训练的HiFi-GAN声码器(基于LibriTTS训练)。推理时使用ODE采样器,设置32步非函数评估(NFE)。
3. 组件间的数据流与交互 数据流是单向的:多源原始数据 → YouTube-Commons预处理流水线 → Raon-OpenTTS-Pool → 质量过滤模块 → Raon-OpenTTS-Core → 模型训练模块 → Raon-OpenTTS模型权重。在评估阶段,训练好的模型在Seed-TTS-Eval、CV3-Eval和自建的Raon-OpenTTS-Eval上进行测试。
4. 关键设计选择及动机
- 沿用F5-TTS架构:动机是为了进行公平的消融研究,证明通过改进数据(扩大规模、提高质量、增加多样性)可以显著提升性能,而无需修改模型架构本身。
- 组合过滤策略:动机是避免任何单一质量信号(如只看WER或DNSMOS)主导过滤决策,从而获得更稳定、鲁棒的过滤结果(如消融实验表3所示)。
- 构建Raon-OpenTTS-Eval:动机是现有基准(如Seed-TTS-Eval)通常只基于干净的朗读语音评估,无法全面反映模型在现实世界复杂声学条件下的鲁棒性。
5. 多阶段展开
- 阶段一:数据准备:重点是处理YouTube-Commons,通过上述预处理管线将其转化为可用的语音-文本片段。其他数据集已为片段格式,主要进行语言提取和格式统一。
- 阶段二:数据筛选:对Raon-OpenTTS-Pool中的所有片段运行WER、DNSMOS和SR评估,通过计算组合排名和移除底部15%,产出核心训练集Raon-OpenTTS-Core。
- 阶段三:模型训练:在Raon-OpenTTS-Core上,使用标准的扩散模型训练流程(流匹配目标)训练0.3B和1B的DiT模型。
- 阶段四:评估:在Seed-TTS-Eval、CV3-Eval上评估自动指标(WER, SIM, DNSMOS),并在Raon-OpenTTS-Eval上评估模型在不同声学条件下的鲁棒性,包括自动指标和人工评估(CMOS, SMOS)。
6. 架构图/流程图
图1说明:该图清晰地展示了整个系统的端到端流程。左侧是数据来源,包括YouTube-Commons和其他10个数据集,它们被聚合为Raon-OpenTTS-Pool。中间上方展示了过滤过程,使用DNSMOS、WER和语音比例三个指标对数据进行质量评估,并基于百分位数阈值进行过滤,生成Raon-OpenTTS-Core。下方是模型训练部分,展示了基于DiT架构的TTS模型在核心数据集上训练。右侧是评估部分,包括传统的Seed-TTS-Eval和CV3-Hard-EN基准,以及本文提出的、覆盖四种声学条件(Clean, Noisy, Wild, Expressive)的Raon-OpenTTS-Eval基准。顶部的雷达图综合展示了模型在各项评估指标上的表现。
图2说明:该图展示了Raon-OpenTTS-Pool中所有语音片段在三个质量指标(DNSMOS, 语音比例, WER)上的分布直方图。每张图中的红色虚线标出了移除质量最低15%片段所对应的阈值(DNSMOS < 2.24, 语音比例 < 0.79, WER > 0.35)。这直观地显示了数据池的质量分布以及过滤标准的选择依据。
7. 专业术语解释
- 零样本TTS:模型能够根据任意说话人的声音提示(prompt),合成该说话人的新语音内容,而无需针对该说话人进行微调。
- 扩散Transformer (DiT):一种结合了扩散模型(用于生成)和Transformer架构(用于建模)的生成模型,特别适合于处理音频、图像等高维连续数据。
- DNSMOS:深度噪声抑制平均意见分,是一个预测模型,用于估计未经处理的语音在感知质量上的得分,分数越高越好。
- CMOS/SMOS:比较平均意见分/相似度平均意见分,是主观评估指标。CMOS衡量生成语音相对于参考语音的自然度;SMOS衡量生成语音与提示语音在说话人相似度上的得分。
💡 核心创新点
- 构建最大开源TTS数据池(Raon-OpenTTS-Pool):整合了11个公开数据源(包括大量处理后的YouTube网络录音),达到615K小时规模。此前最大的开源TTS数据集(如Emilia)规模远小于此。这解决了开源TTS研究中“数据稀缺”的根本问题。
- 提出有效的模型化数据过滤管线:通过DNSMOS、WER和语音比例的组合排名策略,从海量、异质的数据中稳定地筛选出高质量子集。消融实验(表3)证明,这种组合过滤在多种评估设置下均能带来一致的性能提升。
- 引入结构化鲁棒性评估基准(Raon-OpenTTS-Eval):首次系统性地将TTS评估扩展到Clean、Noisy、Wild、Expressive四种声学条件,使用来自12个不同数据集的6K个提示-文本对。这揭示了现有模型(如某些自回归模型)在Wild条件下性能急剧下降的问题,而Raon-OpenTTS表现出更好的泛化能力。
- 开源生态建设:首次实现了从大规模多源数据采集、处理、过滤,到模型训练、评估基准、再到完整权重和代码的全链条开源。这为TTS研究提供了完全透明、可复现的基线。
📊 实验结果
论文在多个基准上进行了全面的评估,包括两个传统基准和一个新提出的鲁棒性基准。
1. Seed-TTS-Eval (English Subset) 结果(对应原文表1)
| 模型 | 参数量 | 训练数据量 | 开放权重 | 开放数据 | WER↓ | SIM↑ |
|---|---|---|---|---|---|---|
| 人类 | - | - | - | - | 2.14 | 0.734 |
| Seed-TTS | - | - | - | - | 2.25 | 0.762 |
| CosyVoice 3 (1.5B) | 1.5B | ~1M | ✓ | - | 2.21 | 0.720 |
| Index-TTS 2 | 1.5B | 55K | ✓ | - | 2.18 | 0.709 |
| Llasa | 8B | 250K | ✓ | - | 3.63 | 0.581 |
| VoxCPM | 0.5B | 1.8M | ✓ | - | 1.98 | 0.730 |
| CosyVoice 2 | 0.5B | 170K | ✓ | - | 2.61 | 0.659 |
| CosyVoice 3 | 0.5B | ~1M | ✓ | - | 2.50 | 0.698 |
| Qwen3-TTS | 1.7B | ~5M | ✓ | - | 1.46 | 0.715 |
| Voxtral TTS | 4B | - | ✓ | - | 2.19 | 0.663 |
| MaskGCT | 0.6B | 100K | ✓ | ✓ | 2.57 | 0.713 |
| F5-TTS | 0.3B | 100K | ✓ | ✓ | 2.04 | 0.671 |
| Raon-OpenTTS-0.3B | 0.3B | 510K | ✓ | ✓ | 1.95 | 0.687 |
| Raon-OpenTTS-1B | 1.0B | 510K | ✓ | ✓ | 1.78 | 0.749 |
| 结论:Raon-OpenTTS-1B在WER上仅次于Qwen3-TTS,在SIM上超过所有开源模型,且性能与在私有数据上训练的顶级模型(如CosyVoice 3)相当。 |
2. CV3-Eval 结果(对应原文表5)
| 模型 | CV3-EN WER↓ | CV3-Hard-EN WER↓ | CV3-Hard-EN SIM↑ | CV3-Hard-EN DNSMOS↑ |
|---|---|---|---|---|
| F5-TTS | 8.54 | - | - | - |
| MaskGCT | 7.73 | 41.09 | 0.624 | 3.48 |
| CosyVoice 2 | 6.27 | 10.28 | 0.710 | 3.95 |
| CosyVoice 3 | 4.96 | 10.77 | 0.740 | 3.98 |
| VoxCPM | 5.24 | 6.44 | 0.670 | 3.78 |
| Qwen3-TTS | 4.52 | 7.89 | 0.666 | 3.87 |
| Raon-OpenTTS-0.3B | 4.62 | 7.31 | 0.730 | 3.77 |
| Raon-OpenTTS-1B | 3.92 | 6.15 | 0.775 | 3.85 |
| 结论:Raon-OpenTTS-1B在更难的CV3-Hard-EN上取得最佳WER和SIM,证明了其在处理复杂文本时的鲁棒性。其DNSMOS分数与最佳系统CosyVoice 3(3.98)相当。 |
3. Raon-OpenTTS-Eval 结果 (自动指标,对应原文表6)
| 模型 | Clean WER↓ | Noisy WER�� | Wild WER↓ | Expressive WER↓ | Overall WER↓ | Overall SIM↑ |
|---|---|---|---|---|---|---|
| F5-TTS | 2.17 | 3.82 | 136.03 | 3.46 | 25.08 | 0.542 |
| MaskGCT | 3.39 | 5.56 | 28.00 | 6.44 | 8.61 | 0.635 |
| CosyVoice 2 | 2.59 | 4.39 | 49.73 | 3.66 | 11.02 | 0.603 |
| CosyVoice 3 | 2.53 | 3.69 | 8.31 | 5.49 | 4.43 | 0.647 |
| VoxCPM | 2.24 | 3.42 | 43.83 | 2.66 | 9.48 | 0.642 |
| Qwen3-TTS | 3.38 | 4.60 | 79.14 | 5.81 | 17.59 | 0.626 |
| Raon-OpenTTS-0.3B | 1.57 | 4.03 | 5.83 | 2.53 | 2.93 | 0.623 |
| Raon-OpenTTS-1B | 1.44 | 3.51 | 5.61 | 2.77 | 2.81 | 0.695 |
| 结论:在涵盖多样声学条件的新基准上,Raon-OpenTTS-1B在WER和SIM上均表现最佳。特别是Wild条件下的巨大优势(WER 5.61 vs Qwen3-TTS的79.14)凸显了其在处理非受控环境录音时的强大鲁棒性。 |
4. 人工评估结果(对应原文表7、表8)
- CMOS(自然度比较,表7):Raon-OpenTTS-1B作为基准(得分0.00)。在Overall上,MaskGCT(-0.01)和CosyVoice 3(-0.13)是主要竞争者,但Raon-OpenTTS-1B在Expressive条件下表现略优。
- SMOS(说话人相似度,表8):Raon-OpenTTS-1B取得了最高的Overall SMOS分数(3.70),其次是Raon-OpenTTS-0.3B(3.60)和Qwen3-TTS(3.59)。
5. 关键消融实验
- 数据过滤消融(表3):比较了不同过滤策略(基于0.3B模型)。结果显示,组合过滤(Combined 15%)在所有评估指标上平均排名最优(3.40),优于单独使用DNSMOS或WER过滤,也优于更激进的50%过滤。这验证了组合过滤策略的有效性和保守性(15%优于50%)。
- 数据来源与规模消融(表9):在匹配47K小时规模下,使用多源的Raon-OpenTTS-Pool子集(Pool-Matched-47K)训练的模型,在WER和SIM上全面优于仅使用Emilia数据的模型,证明了数据多样性带来的收益。
- YouTube-Commons数据影响消融(表10):移除335K小时的YouTube-Commons数据(仅剩280K小时)后,模型在Wild和Expressive条件下的WER显著上升,但也注意到Noisy条件下的WER反而恶化(4.21% -> 6.79%),说明大规模网络野数据对提升模型在Wild条件下的鲁棒性至关重要,但对Noisy条件的影响并非单调。
🔬 细节详述
- 训练数据:
- 名称:Raon-OpenTTS-Core。
- 来源:由Raon-OpenTTS-Pool经过组合过滤(移除综合排名最低15%的片段)得到。
- 规模:510K小时,194M(1.94亿)个语音片段。
- 预处理:所有音频统一为16kHz单声道,存储为64kbps Opus格式。使用Silero VAD切分为3-30秒片段。
- 数据增强:论文未明确提及使用额外的数据增强技术。
- 损失函数:论文未明确说明,但因其架构沿用F5-TTS,可推断为标准的扩散模型训练目标,很可能是流匹配(Flow Matching)损失。
- 训练策略:
- 优化器:未明确说明,但通常为AdamW。
- 学习率:Raon-OpenTTS-0.3B为7.5e-5, Raon-OpenTTS-1B为1e-4。采用线性预热(50K步)和线性衰减的调度。
- Batch Size:每GPU音频帧数,0.3B为35K, 1B为14K。
- 训练步数:0.3B为225K步, 1B为550K步。
- 梯度裁剪:最大范数为1.0。
- 训练硬件:NVIDIA B200 GPU。训练时长:0.3B约1K GPU-hours, 1B约9K GPU-hours。
- 关键超参数:
- 模型规模:0.3B和1B。
- 文本表示:字符级嵌入,词汇表大小5,512。
- 语音表示:80通道对数梅尔频谱图,采样率16kHz,帧移256。
- 声码器:预训练的HiFi-GAN(基于LibriTTS)。
- 推理细节:
- 采样器:ODE采样。
- 非函数评估步数(NFE):32步。
- 正则化:除梯度裁剪外,未明确提及。
- 评估协议:
- WER:使用Whisper-large-v3计算,并使用官方文本规范化器处理参考和假设文本。
- SIM:Seed-TTS-Eval使用WavLM-large;CV3-Hard-EN使用ERes2Net。
- 人工评估:在Raon-OpenTTS-Eval的每个声学条件下随机抽取30个评估项,每个项由6位标注员通过Amazon Mechanical Turk评分。
⚖️ 评分理由
创新性:2.0/3 论文的核心创新在于系统性地解决了开源TTS研究中的“数据”和“可复现性”问题。它并非提出一个新的TTS生成算法,而是证明了通过精心构建的、大规模的开源数据(Raon-OpenTTS-Pool/Core)和透明的处理流程,现有架构(DiT)可以达到接近闭源SOTA的水平。这种“数据驱动”的范式验证和完整的开源生态构建,是对该领域的重要贡献。但架构本身的零创新显著限制了技术新颖性。
技术严谨性:1.3/1.5 技术上是严谨的。数据过滤方法基于合理的质量指标(WER, DNSMOS, SR),并通过消融实验(表3)验证了组合策略的优越性。评估基准Raon-OpenTTS-Eval的设计(多数据集、多声学条件分类)是结构化且合理的。所有对比实验均遵循了标准协议。一个微小的瑕疵是,对于“组合过滤”中绝对排名计算的具体公式描述略简略。
实验充分性:1.4/1.5 实验非常充分。1)基线全面:对比了多个近期模型,涵盖闭源和开源(详见表1)。2)基准多样:使用了Seed-TTS-Eval, CV3-Eval两个主流基准,并提出了新的Raon-OpenTTS-Eval基准。3)消融完整:进行了数据过滤策略、数据来源、关键数据(YouTube-Commons)影响等多项消融,有力支撑了核心论点。4)评估全面:结合了自动指标(WER, SIM, DNSMOS)和人工评估(CMOS, SMOS)。
清晰度:0.8/1 论文写作清晰,组织结构良好。图表(如图1、图2)直观地展示了系统流程和数据分布。关键术语有定义。各章节逻辑连贯。一个不足之处是,对于YouTube-Commons预处理管线中的一些具体参数(如UVR-MDX的具体设置、PyAnnote和Whisper的具体调用配置)描述不够详细。
影响力:2.0/2 影响力极高,对语音合成领域的开源生态建设推动作用显著。1)发布大规模数据集:Raon-OpenTTS-Pool是迄今最大的开源TTS训练数据池,将极大降低该领域研究的入门门槛。2)建立可复现标杆:完整的数据、模型、代码、评估基准开源,为后续研究提供了透明、可靠的基线。3)揭示研究方向:Raon-OpenTTS-Eval基准的设计和实验结果(表6)揭示了现有模型在非干净语音下的脆弱性,为未来的鲁棒TTS研究指明了方向。其贡献完全聚焦于语音合成领域,具有直接且重大的实用价值。
开源:1.5/1.5 开源做得非常彻底。论文承诺公开:1)数据池和过滤流程(通过GitHub仓库);2)训练代码和检查点;3)评估基准。提供了明确的GitHub仓库链接(https://github.com/krafton-ai/RAON-OpenTTS)。
可复现性:0.5/0.5 可复现性信息非常充分。论文提供了详细的训练超参数(学习率、batch size、训练步数、硬件信息)、数据处理流程(预处理、过滤的每个步骤)、模型架构细节(表11)以及评估协议。结合其开源承诺,其他研究者应能基本独立复现其工作。
总分:7.5/10
🚨 局限与问题
论文明确承认的局限:
- 当前研究仅专注于英语语音数据,未来可扩展到多语言设置。
- Raon-OpenTTS-Pool的多源数据混合策略有进一步优化的空间。
- Raon-OpenTTS-Core通过过滤丢弃低质量样本,未来可探索通过数据修正或语音处理技术来修复这些样本。
审稿人发现的潜在问题:
- 架构创新有限:论文明确采用F5-TTS的架构而不加修改,虽然动机是为了公平消融,但这使得其贡献高度集中在数据层面,技术新颖性显著减弱。在NeurIPS/ICML/ICLR等顶会,架构创新通常是重要评判标准。
- 过滤策略的保守性与评估偏差:仅移除质量最低的15%数据可能过于保守。更重要的是,在Raon-OpenTTS-Eval的“Wild”类别中,论文对AMI-SDM数据集仅保留了WER为0的片段(Section 4.2)。这引入了明显的选择偏差,使得该类别的评估条件并非完全“野生”,高WER的样本可能才是真正的挑战。
- 与SOTA的差距与原因分析不足:尽管Raon-OpenTTS-1B表现优异,但在Seed-TTS-Eval的WER上仍落后于Qwen3-TTS(1.78% vs 1.46%)。论文未明确分析这一差距的具体原因(例如,是模型架构差异、训练数据规模差异(510K vs ~5M)还是其他因素所致)。
- YouTube-Commons处理的不确定性:虽然论文提供了预处理流程,但YouTube-Commons原始数据质量、具体来源和潜在版权风险在文中未充分讨论。依赖此类数据可能引发可重复性问题(如果视频链接失效或内容变化)。
- 数据过滤对不同数据源的影响不均:从表4可见,不同数据集在过滤后的保留率差异巨大(从97.7%到48.2%)。论文未深入分析这种不均衡过滤对最终模型在不同领域或说话人上性能的影响。