📄 Confidence-Based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens #语音增强 #生成模型 #数据集 #语音合成
✅ 6.5/10 | 前50% | #语音增强 | #生成模型 | #数据集 #语音合成
学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构 第一作者:Kazuki Yamauchi (CyberAgent, 日本;东京大学,日本) 通讯作者:未明确说明(论文中未提供通讯作者标识,通常通讯作者会标注星号或邮箱特殊,此处无法判断) 作者列表:Kazuki Yamauchi(CyberAgent,东京大学)、Masato Murata(CyberAgent)、Shogo Seki(CyberAgent) 💡 毒舌点评 亮点:论文精准地抓住了生成式语音增强(GSE)模型一个非常具体但关键的工程痛点——“听起来干净但内容错误的幻觉”,并提出了一个简洁、即插即用且无需干净参考的解决方案(模型自身置信度),实验验证了该方案在提升下游TTS任务性能上的实际效用。 短板:创新本质上是对语言模型困惑度概念的直接迁移,缺乏理论层面的深入剖析;且实验完全依赖于单个骨干模型(Genhancer)和单个任务(TTS数据策划),方法的普适性和泛化能力存疑。
🔗 开源详情 代码:论文中未提及任何由作者提供的代码仓库链接。复现依赖于对引用的开源项目(Genhancer, DAC, WavLM, Matcha-TTS, HiFi-GAN等)的自行整合与训练。 模型权重:未提及公开任何作者训练的模型权重(如经过TITW-hard数据训练的GSE模型或策划后数据训练的TTS模型)。 数据集:使用的数据集(LibriTTS-R, TITW-hard, EARS-WHAM等)均为公开数据集,可通过相应链接获取。 Demo:未提供在线演示。 复现材料:提供了非常详细的训练配置(模型架构、数据集划分、硬件、训练步数、关键超参数如温度),并引用了所有依赖工具的官方代码库,复现基础较好。 论文中引用的开源项目:Genhancer, Descript Audio Codec (DAC), WavLM, Matcha-TTS, HiFi-GAN, UTMOS, DNSMOS, Whisper, CTC score工具包, URGENT Challenge评估工具等。 总体开源计划:论文中未提及额外的开源计划(如未来公开代码或模型)。 📌 核心摘要 要解决的问题:生成式语音增强(GSE)模型在清理嘈杂语音数据集时,可能产生“幻觉错误”(如音素遗漏、说话人不一致)。传统的非侵入式语音质量评估指标(如DNSMOS)难以检测此类错误,而可检测的侵入式指标又因需要干净参考而在实际野外数据集策划中不可用。 方法核心:提出一种非侵入式过滤方法,利用基于离散token的GSE模型(如Genhancer)生成过程中,第一层量化器token的对数概率平均值作为置信度分数,来量化模型对生成结果的“确定性”。低置信度样本被视为可能包含幻觉错误而被过滤。 新意所在:将生成模型的内部置信度(类似于语言模型的困惑度)作为数据质量评估的信号,专门用于检测和过滤GSE模型特有的幻觉错误。与常规使用外部模型(如Whisper)或基于输出音频特征(如DNSMOS)的过滤方法不同,这是模型对自身输出的“自评估”。 主要实验结果: 指标相关性:在EARS-WHAM数据集上,提出的置信度分数与多种侵入式SE指标(如PESQ, SpeechBERTScore, LPS)的Spearman相关系数(SRCC)高达0.788-0.892(见下表),显著优于UTMOS、DNSMOS等常规非侵入指标。 过滤效果:在相同数据保留率下,使用置信度过滤在所有侵入式指标上均优于单指标或双指标基线过滤方法。 下游任务提升:在TITW-hard野外数据集上,使用置信度过滤后的数据训练TTS模型(Matcha-TTS),其合成语音的UTMOS(3.80)和DNSMOS(3.17)评分以及WER(18.14%) 均优于使用未过滤数据的基线(见下表)。 实际意义:为利用GSE模型策划高质量TTS训练数据提供了一种有效、易用的质量控制手段,能够显著提升下游TTS模型的性能,具有明确的工程应用价值。 主要局限性:方法局限于基于离散token的GSE模型;阈值选择需实验确定(存在质量与数据量的权衡);核心创新思想相对直接,未提供理论解释为何置信度与幻觉错误相关。 表1:提出的置信度分数与其他非侵入指标与侵入指标的SRCC(摘要自论文表1,关键行)
...