Confidence-Based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

📄 Confidence-Based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens #语音增强 #生成模型 #数据集 #语音合成 ✅ 6.5/10 | 前50% | #语音增强 | #生成模型 | #数据集 #语音合成 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kazuki Yamauchi (CyberAgent, 日本;东京大学,日本) 通讯作者:未明确说明(论文中未提供通讯作者标识,通常通讯作者会标注星号或邮箱特殊,此处无法判断) 作者列表:Kazuki Yamauchi(CyberAgent,东京大学)、Masato Murata(CyberAgent)、Shogo Seki(CyberAgent) 💡 毒舌点评 亮点:论文精准地抓住了生成式语音增强(GSE)模型一个非常具体但关键的工程痛点——“听起来干净但内容错误的幻觉”,并提出了一个简洁、即插即用且无需干净参考的解决方案(模型自身置信度),实验验证了该方案在提升下游TTS任务性能上的实际效用。 短板:创新本质上是对语言模型困惑度概念的直接迁移,缺乏理论层面的深入剖析;且实验完全依赖于单个骨干模型(Genhancer)和单个任务(TTS数据策划),方法的普适性和泛化能力存疑。 🔗 开源详情 代码:论文中未提及任何由作者提供的代码仓库链接。复现依赖于对引用的开源项目(Genhancer, DAC, WavLM, Matcha-TTS, HiFi-GAN等)的自行整合与训练。 模型权重:未提及公开任何作者训练的模型权重(如经过TITW-hard数据训练的GSE模型或策划后数据训练的TTS模型)。 数据集:使用的数据集(LibriTTS-R, TITW-hard, EARS-WHAM等)均为公开数据集,可通过相应链接获取。 Demo:未提供在线演示。 复现材料:提供了非常详细的训练配置(模型架构、数据集划分、硬件、训练步数、关键超参数如温度),并引用了所有依赖工具的官方代码库,复现基础较好。 论文中引用的开源项目:Genhancer, Descript Audio Codec (DAC), WavLM, Matcha-TTS, HiFi-GAN, UTMOS, DNSMOS, Whisper, CTC score工具包, URGENT Challenge评估工具等。 总体开源计划:论文中未提及额外的开源计划(如未来公开代码或模型)。 📌 核心摘要 要解决的问题:生成式语音增强(GSE)模型在清理嘈杂语音数据集时,可能产生“幻觉错误”(如音素遗漏、说话人不一致)。传统的非侵入式语音质量评估指标(如DNSMOS)难以检测此类错误,而可检测的侵入式指标又因需要干净参考而在实际野外数据集策划中不可用。 方法核心:提出一种非侵入式过滤方法,利用基于离散token的GSE模型(如Genhancer)生成过程中,第一层量化器token的对数概率平均值作为置信度分数,来量化模型对生成结果的“确定性”。低置信度样本被视为可能包含幻觉错误而被过滤。 新意所在:将生成模型的内部置信度(类似于语言模型的困惑度)作为数据质量评估的信号,专门用于检测和过滤GSE模型特有的幻觉错误。与常规使用外部模型(如Whisper)或基于输出音频特征(如DNSMOS)的过滤方法不同,这是模型对自身输出的“自评估”。 主要实验结果: 指标相关性:在EARS-WHAM数据集上,提出的置信度分数与多种侵入式SE指标(如PESQ, SpeechBERTScore, LPS)的Spearman相关系数(SRCC)高达0.788-0.892(见下表),显著优于UTMOS、DNSMOS等常规非侵入指标。 过滤效果:在相同数据保留率下,使用置信度过滤在所有侵入式指标上均优于单指标或双指标基线过滤方法。 下游任务提升:在TITW-hard野外数据集上,使用置信度过滤后的数据训练TTS模型(Matcha-TTS),其合成语音的UTMOS(3.80)和DNSMOS(3.17)评分以及WER(18.14%) 均优于使用未过滤数据的基线(见下表)。 实际意义:为利用GSE模型策划高质量TTS训练数据提供了一种有效、易用的质量控制手段,能够显著提升下游TTS模型的性能,具有明确的工程应用价值。 主要局限性:方法局限于基于离散token的GSE模型;阈值选择需实验确定(存在质量与数据量的权衡);核心创新思想相对直接,未提供理论解释为何置信度与幻觉错误相关。 表1:提出的置信度分数与其他非侵入指标与侵入指标的SRCC(摘要自论文表1,关键行) ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 319 words

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

📄 Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs #语音合成 #多模态模型 #扩散模型 #自回归模型 🔥 8.0/10 | 前10% | #语音合成 | #扩散模型 | #多模态模型 #自回归模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 -0.3 | 置信度 高 👥 作者与机构 第一作者:Xinlu He(Worcester Polytechnic Institute, Amazon AGI) 通讯作者:未说明 作者列表:Xinlu He*(Worcester Polytechnic Institute, Amazon AGI), Swayambhu Nath Ray(Amazon AGI), Harish Mallidi(Amazon AGI), Jia-Hong Huang(Amazon AGI), Ashwin Bellur(Amazon AGI), Chander Chandak(Amazon AGI), M. Maruf(Amazon AGI), Venkatesh Ravichandran(Amazon AGI) 💡 毒舌点评 亮点在于其高效的双头架构设计和两阶段训练策略,成功将连续token扩散“塞进”了自回归框架并取得了SOTA的自回归TTS结果,参数效率极高。短板则是开源精神的缺失,在声称“仅用于研究”的同时,却未提供任何模型、代码或数据,让“复现”成了镜花水月。 ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 454 words

CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data

📄 CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data #语音转换 #流匹配 #语音合成 #数据增强 #非自回归 ✅ 7.8/10 | 前25% | #语音转换 | #流匹配 | #语音合成 #数据增强 学术质量 7.8/7 | 选题价值 7.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Qibing Bai(香港中文大学(深圳)数据科学学院、腾讯天籁音频实验室) 通讯作者:Shuai Wang(南京大学智能科学与技术学院,标注†) 作者列表:Qibing Bai(香港中文大学(深圳)数据科学学院、腾讯天籁音频实验室)、Shuhao Shi(香港中文大学(深圳)数据科学学院)、Shuai Wang(南京大学智能科学与技术学院)、Yukai Ju(腾讯天籁音频实验室)、Yannan Wang(腾讯天籁音频实验室)、Haizhou Li(香港中文大学(深圳)数据科学学院、深圳市大数据研究院、香港中文大学(深圳)高等金融研究院) 💡 毒舌点评 亮点在于“源合成”数据策略的构思巧妙——通过合成非母语语音来使用纯净母语语音作为目标,从根本上规避了TTS伪影污染,这一思路颇具启发性。短板则是其宣称的“无需真实L2数据”在泛化到真实、多样且含噪声的L2语音时可能面临挑战,且模型在说话人相似度上略逊于基线。 🔗 开源详情 代码:提供了GitHub代码仓库链接:https://github.com/P1ping/CosyAccent。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:论文中描述了使用LibriTTS-R和L2-ARCTIC构建合成数据集的方法,但未明确说明是否公开最终的合成数据集。 Demo:提供了在线演示链接:https://p1ping.github.io/CosyAccent-Demo。 复现材料:论文详细描述了模型架构、数据构建流水线、关键训练技术(CTC损失、位置缩放、CFG)。但未提供训练的具体超参数(如学习率、Batch size)、训练硬件信息和检查点。 论文中引用的开源项目: CosyVoice2 [19]:用于合成L2语音的提示式TTS模型。 Whisper [27]:用作冻结的语音编码器前端。 Resemblyzer:用于提取说话人嵌入。 HiFTNet [34]:用作声码器。 其他基准模型代码:FramAN [13], TokAN [18]。 论文中未提及开源计划的其他方面:如合成数据集权重。 📌 核心摘要 这篇论文针对口音归一化(AN)中训练数据稀缺和时长建模生硬两大挑战,提出了一种新的解决方案。核心方法包括:1)提出“源合成”训练数据构建策略,使用强大的提示式TTS(CosyVoice2)从大规模母语语料中合成非母语语音,从而在完全不使用真实L2数据的情况下,构建以高质量母语语音为目标的平行训练对。2)提出了CosyAccent模型,一个基于流匹配的非自回归(NAR)系统,它通过隐式韵律建模保证自然度,并引入“位置缩放”技术实现对输出总时长的显式控制。实验结果显示,尽管未使用真实L2数据训练,CosyAccent在内容保持(WER降至12.96% vs. 基线16.21%)和自然度(主观NAT评分64.62)上显著优于使用真实数据的基线模型。该工作证明了合成数据策略的有效性,为减少对稀缺口音数据的依赖提供了新途径。其主要局限性在于合成数据可能缺乏真实L2语音的声学复杂性和副语言特征。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 246 words

Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis

📄 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis #语音克隆 #语音合成 #流匹配 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言 学术质量 7.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qingyu Liu(上海交通大学 X-LANCE Lab / 约翰斯·霍普金斯大学) 通讯作者:Xie Chen(上海交通大学 X-LANCE Lab / 上海创新研究院)†(论文中明确标注为通讯作者) 作者列表:Qingyu Liu(上海交通大学、约翰斯·霍普金斯大学)、Yushen Chen(上海交通大学、上海创新研究院)、Zhikang Niu(上海交通大学、上海创新研究院)、Chunhui Wang(吉利)、Yunting Yang(吉利)、Bowen Zhang(吉利)、Jian Zhao(吉利)、Pengcheng Zhu(吉利)、Kai Yu(上海交通大学)、Xie Chen(上海交通大学、上海创新研究院) 💡 毒舌点评 亮点:论文精准地找到了flow-matching TTS在跨语言场景下的痛点——对音频提示转录文本的依赖,并通过引入多粒度说话率预测器给出了一个工程上优雅的解决方案。短板:说话率预测器本身只在中文和英文数据上训练,却要声称对德、法、印地、韩等“未见语言”有效,这一结论的支撑略显单薄;此外,去除转录文本后“细粒度说话人特征(如口音、情感)”的迁移能力下降,在论文中被轻描淡写为“未来工作”,但这恰恰是克隆质量的要害。 🔗 开源详情 代码:提供了Demo链接(https://huggingface.co/spaces/chenxie95/Cross-Lingual_F5-TTS_Space)和个人主页示例(https://qingyuliu0521.github.io/Cross_lingual-F5-TTS/)。论文指出Cross-Lingual F5-TTS的代码可通过这些链接访问,暗示已开源。 模型权重:基础模型F5-TTS-Base已开源。本文提出的Cross-Lingual F5-TTS模型和说话率预测器的具体权重下载地址论文中未明确提供。 数据集:使用了公开数据集Emilia、LibriSpeech、FLEURS。未提供本文特有的测试集(跨语言测试集)的独立下载。 Demo:提供了交互式HuggingFace Spaces Demo。 复现材料:提供了详尽的训练配置(模型架构、优化器、学习率、batch size、训练步数)、推理设置(NFE、CFG等)和预处理方法描述,为复现提供了坚实基础。 依赖的开源项目:MMS (forced alignment), Vocos (vocoder), Whisper-large-V3 (WER评估), Paraformer-zh (中文WER评估), WavLM (说话人相似度评估), UTMOS (自然度评估)。 📌 核心摘要 问题:现有的基于流匹配的文本转语音(TTS)模型在进行跨语言语音克隆时,严重依赖于对音频提示(参考音频)的转录文本,这在目标语言未知或转录不可用时无法实现。 方法核心:提出Cross-Lingual F5-TTS框架。训练时,利用MMS强制对齐工具预处理数据,获取词边界,将音频提示部分及其对应文本完全丢弃,仅用提示音频指导合成剩余被掩码的音频。推理时,为解决缺失文本导致的时长预测难题,训练了音素、音节、词三种粒度的说话率预测器,直接从音频提示的声学特征估算其说话速度,进而结合目标文本的单元数量计算合成时长。 创新点:相比原F5-TTS及同类模型,本文首次在flow-matching TTS框架内实现了无需音频提示转录的跨语言克隆;引入了基于Gaussian Cross-Entropy损失的多粒度说话率预测器作为时长建模的替代方案。 实验结果:在语内测试(LibriSpeech-PC test-clean, SeedTTS test-en/zh)上,该方法在WER和UTMOS等指标上匹配甚至优于原F5-TTS基线(如CL-F5+M1在LibriSpeech-PC test-clean上WER为2.079%,低于基线的2.205%)。在跨语言测试(473个样本,德、法、印地、韩语音提示合成中英文)上,成功实现了克隆,其中M1/M2模型表现良好(如合成英文WER为2.496%),而M3(词级)显著变差(WER达16.494%)。说话率预测器在MRE上表现最佳为M2在中文测试的13.771%。 实际意义:使高质量语音克隆摆脱了对参考音频转录的强依赖,极大扩展了应用场景,尤其是在处理无法转录的罕见语言或实时克隆场景。 局限性:1)说话率预测器在中英文以外语言上的有效性未直接验证,其泛化性存疑。2)去除文本信息后,对说话人细微特征(如口音、情感)的迁移能力下降,论文未提出解决方案。3)跨语言测试集的语言覆盖范围和样本量有限。 🏗️ 模型架构 (图1. Cross-Lingual F5-TTS 训练框架。MMS强制对齐为训练数据生成词边界,左侧片段作为无转录的音频提示,右侧片段的梅尔谱被掩码用于预测) ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 428 words

DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis

📄 DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis #语音合成 #流匹配 #零样本 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心) 通讯作者:Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心) 作者列表:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yu Gu(未说明)、Kun Wei(未说明)、Hui-Peng Du(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Zhen-Hua Ling(中国科学技术大学 国家语音与语言信息处理工程研究中心) 💡 毒舌点评 亮点在于将语音-环境分离与流匹配音频填充相结合,首次在零样本框架下实现了对时间变化背景环境的独立控制,思路清晰且实验验证充分。短板是高度依赖预训练的语音-环境分离(SES)模块的性能,且推理时要求提供“纯”环境提示音频的假设在真实场景中可能较难满足,限制了其通用性。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。仅提供了一个用于试听音频样本的示例页面。 模型权重:未提及是否公开模型权重。 数据集:训练使用了公开的LibriTTS和DNS-Challenge数据集。评估集使用了公开的SeedTTS test-en集并添加了SoundBible的环境音频。 Demo:提供了在线演示页面:https://yxlu-0102.github.io/DAIEN-TTS。 复现材料:论文提供了一定的训练细节(数据集、步骤、硬件、批大小、模型部分参数),但缺少完整的训练脚本、优化器配置、声码器训练细节等,信息不算充分。 论文中引用的开源项目:论文基于F5-TTS框架,并引用了Whisper-large-v3用于WER评估,WavLM-large用于说话人嵌入提取。 📌 核心摘要 问题:现有的零样本语音合成(TTS)系统难以在合成语音时,独立且可控地改变背景声学环境(如从安静房间切换到嘈杂街道),特别是对于时间变化的环境。 方法核心:本文提出DAIEN-TTS,一个基于解纠缠音频填充的环境感知零样本TTS框架。其核心是引入一个预训练的语音-环境分离(SES)模块,将带环境音的语音分解为干净语音和环境音频的梅尔谱。在训练时,对两者分别进行随机掩码,以干净语音谱、环境谱(部分掩码)和文本为条件,通过流匹配模型填充被掩码的完整环境语音梅尔谱。推理时,可使用任意说话人提示和任意环境提示进行合成。 创新点:a) 首次提出一个能独立控制音色和时间变化背景环境的零样本TTS框架。b) 设计了基于交叉注意力的环境条件注入方案,并在推理时采用双无分类器指导(DCFG)和信噪比(SNR)自适应策略来增强可控性。c) 实验表明该方法在自然度、说话人相似度和环境保真度上均表现良好。 主要实验结果:在SeedTTS测试集上,当使用静音环境提示时,DAIEN-TTS的词错率(WER)为1.93%,说话人相似度(SIM-o)为0.60,自然度(MOS)达3.84。当使用背景环境提示合成环境语音时,WER为2.83%,SIM-o为0.55,MOS为3.78,环境相似度(ESMOS)为3.65,均接近或达到人类录音水平。关键结果如下表所示(摘自论文Table 1): 模型 WER(%) ↓ SIM-o ↑ MOS ↑ SSMOS ↑ ESMOS ↑ 场景:静音环境提示 Human (上界) 2.14 0.73 3.91 3.72 - F5-TTS (Clean Spk. Prompt) 2.30 0.58 3.80 3.60 - F5-TTS (Env. Spk. Prompt) 2.87 0.49 3.09 2.92 - DAIEN-TTS 1.93 0.60 3.84 3.64 - 场景:背景环境提示 Human + Environment (上界) 2.80 0.70 3.86 3.81 3.72 DAIEN-TTS 2.83 0.55 3.78 3.73 3.65 实际意义:该技术为有声读物、虚拟现实、游戏等需要生成特定背景环境语音的场景提供了新的解决方案,增强了合成语音的表现力和沉浸感。 主要局限性:a) 框架性能严重依赖预训练SES模块的分离质量,若分离不佳会直接影响合成效果。b) 训练和评估均基于预设的“干净语音-环境音频”配对数据,对于现实世界中无法获得纯净环境音的复杂场景,其适用性有待验证。c) 推理时要求提供纯环境音频提示,这在实际应用中可能不便获取。 🏗️ 模型架构 DAIEN-TTS的整体架构如图1所示,包含训练(左)和推理(右)两个流程。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 408 words

Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS

📄 Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS #语音合成 #流匹配 #端到端 #有声书生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #端到端 #有声书生成 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ziqi Dai(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室)† 通讯作者:Weifeng Zhao(腾讯音乐娱乐Lyra实验室)⋆, Ruohua Zhou(北京建筑大学智能科学与技术学院)⋆ 作者列表: Ziqi Dai†(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室) Yiting Chen†(腾讯音乐娱乐Lyra实验室) Jiacheng Xu(腾讯音乐娱乐Lyra实验室) Liufei Xie(腾讯音乐娱乐Lyra实验室) Yuchen Wang(腾讯音乐娱乐Lyra实验室) Zhenchuan Yang(腾讯音乐娱乐Lyra实验室) Bingsong Bai(北京邮电大学) Yangsheng Gao(腾讯音乐娱乐Lyra实验室) Wenjiang Zhou(腾讯音乐娱乐Lyra实验室) Weifeng Zhao⋆(腾讯音乐娱乐Lyra实验室) Ruohua Zhou⋆(北京建筑大学智能科学与技术学院) 💡 毒舌点评 亮点:该工作将“为角色从文本生成声音”和“根据上下文生成情感语音”这两个有声书制作的关键环节进行了系统性建模,并提出了Text-to-Timbre (TTT) 这一新颖任务及其流匹配解决方案。短板:其“端到端”的声明略显模糊,因为核心的上下文理解与指令生成依赖于一个外部的大语言模型,这限制了系统真正的自动化程度和独立性。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 265 words

Direct Preference Optimization For Speech Autoregressive Diffusion Models

📄 Direct Preference Optimization For Speech Autoregressive Diffusion Models #语音合成 #扩散模型 #偏好优化 #零样本 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) 通讯作者:Shuai Wang(南京大学智能科学与技术学院) 作者列表: Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) Dongya Jia(字节跳动Seed) Xiaoqiang Wang(字节跳动Seed) Chenpeng Du(字节跳动Seed) Shuai Wang(南京大学智能科学与技术学院;深圳湾区研究院) Zhuo Chen(字节跳动Seed) Haizhou Li(香港中文大学(深圳)SDS, SRIBD, SAI;深圳湾区研究院) 💡 毒舌点评 亮点在于首次成功将DPO“移植”到语音自回归扩散模型上,用实验证明了其能显著提升表达力(F0方差翻倍)和鲁棒性(CER降25%),开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释,且开源信息仅限音频示例,核心代码与模型未公开,影响了工作的可复现性和影响力。 🔗 开源详情 代码:论文中未提及代码链接。补充材料页面(https://zjlww.github.io/ardm-dpo/)可能包含音频示例,但未说明是否提供代码。 模型权重:未提及公开模型权重。 数据集:未提及公开偏好数据集。使用了公开的LibriTTS和DidiSpeech-2作为基础数据,但筛选后的偏好对未公开。 Demo:未提供在线演示链接。补充材料页面可能包含音频样本,但不是交互式Demo。 复现材料:论文提供了详细的训练超参数(学习率、优化器、批次大小等)和硬件信息(32张A100),复现基础模型训练可能可行。但ARDM-DPO训练所必需的、经过精心筛选的偏好数据集未公开,是复现的主要障碍。 论文中引用的开源项目:DiTAR模型(基于ARTransformer)、Whisper-large-v3(用于WER)、Paraformer-zh(用于CER)、WavLM-TDCNN(用于说话人相似度计算)、Seed-TTS-Eval2(评估工具包)。 📌 核心摘要 问题:当前基于自回归扩散模型(ARDM)的零样本TTS虽性能领先,但生成的语音常与人类偏好不对齐,例如在给定情感提示时仍可能产出单调的语音,缺乏表达力且在处理长难句时鲁棒性不足。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 347 words

Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens

📄 Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens #语音合成 #扩散模型 #自回归模型 #语音表示 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #语音表示 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology) 通讯作者:未说明 作者列表:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology),He Huang(NVIDIA),Jean-Marie Lemercier(NVIDIA),Subham Sekhar Sahoo(NVIDIA;Cornell Tech),Zhehuai Chen(NVIDIA),Ante Jukić(NVIDIA) 💡 毒舌点评 亮点:论文将新兴的离散扩散模型系统性地应用于语音token重建,并提供了迄今最全面的实证分析,结论(如FSQ优于RVQ、Conf-TopK采样更佳)对后续相关工作有直接的工程指导价值。短板:论文主要贡献是“应用与分析”,而非提出基础理论或解决语音token化中的核心难题(如语义与声学信息的完美解耦),且未探讨其方法对下游语音大模型(如TTS、ASR)性能的影响,使其深度和影响力受限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了Granary英文子集,论文未说明如何公开获取。 Demo:提供了一个Demo页面链接:https://kuray107.github.io/DDMs_on_taste26_examples/demo,用于展示音频样本。 复现材料:论文在“实验设置”部分给出了详细的训练配置(GPU型号/数量、batch size、优化器、学习率策略、两阶段训练步数、模型参数量)、评估指标和采样器设置,为复现提供了充分的文字指导。 论文中引用的开源项目: 量化方案:Finite Scalar Quantization (FSQ) [26] 预训练模型:Whisper [21], NVIDIA NeMo [25], CosyVoice [17], HiFi-GAN vocoder [23] 评估工具:Torchaudio-Squim [30], WavLM [33], TitaNet [34], WV-MOS [31], UTMOS [32] DDM相关:D3PM [1], MDLM [2], ReMDM [4], Confidence-based Samplers [13, 14, 15] 📌 核心摘要 要解决什么问题:现有的TASTE语音token化框架依赖自回归(AR)解码器来重建语音,这导致推理速度慢,且重建质量可能非最优。 方法核心是什么:提出用离散扩散模型(DDM)替代TASTE中的AR解码器。模型在推理时,通过迭代去噪(从全掩码到逐步揭示)来并行预测S3 token序列,再由vocoder生成波形。 与已有方法相比新在哪里:首次在TASTE框架中系统性地应用并分析DDM。与AR解码器相比,DDM解码具有并行性,且质量更高。同时,论文系统比较了向量量化方案(RVQ vs. FSQ),发现FSQ能显著提升性能。 主要实验结果如何:在LibriSpeech数据集上,DDM解码器相比AR基线实现了3.3倍的推理速度提升(测试集1.65秒 vs. 5.48秒)。使用RVQ量化时,DDM的WER比AR降低35%(测试集:5.10% vs. 7.60%),UT-MOS提升0.45(4.27 vs. 3.82)。使用FSQ量化后,性能进一步提升,AR模型的WER相对降低35%,UT-MOS提升0.14。DDM模型在10步推理时即可达到峰值性能,甚至单步推理也基本可用。关键实验结果对比如下表: 模型 量化方式 测试集 WER (%) ↓ UT-MOS ↑ AR基线 4L-RVQ test-clean 7.60 3.82 本文DDM 4L-RVQ test-clean 5.10 4.27 本文DDM 4L-FSQ test-clean 4.00 4.30 本文DDM 10步 test-clean 3.70 4.28 本文DDM 单步 test-clean 5.14 3.81 实际意义是什么:为语音token化中的高效、高质量解码提供了一个优于自回归范式的新方案,展示了离散扩散模型在条件生成任务中的潜力,并提供了工程实践上的具体指导(如采样器选择、步数设置)。 主要局限性是什么:模型性能严重依赖一个外部长度预测器来估计S3 token序列长度;论文未验证该改进的语音表示对下游语音大模型(如端到端TTS、ASR)的具体增益;其优势建立在强条件(文本+TASTE embedding)上,对于无条件或弱条件生成任务的普适性未探讨。 🏗️ 模型架构 本文模型架构建立在TASTE框架之上,包含两个主要部分:TASTE Tokenizer和解码器(AR或DDM)。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 392 words

DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance #语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kang Yin(中国科学技术大学),Chunyu Qiang(快手科技) (论文标注†表示同等贡献,故两位均为第一作者) 通讯作者:Sirui Zhao(中国科学技术大学),Tong Xu(中国科学技术大学),Chen Zhang(快手科技) (论文标注*表示通讯作者) 作者列表: Kang Yin(中国科学技术大学) Chunyu Qiang(快手科技) Sirui Zhao(中国科学技术大学) Xiaopeng Wang(快手科技) Yuzhe Liang(快手科技) Pengfei Cai(中国科学技术大学) Tong Xu(中国科学技术大学) Chen Zhang(快手科技) Enhong Chen(中国科学技术大学) 💡 毒舌点评 本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案,Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效,实验数据扎实,切实推动了可控TTS在解耦方向上的进步。然而,其创新更多是“优秀的组合”而非“从零的突破”,且说话人相似度这一关键指标不及部分基线,暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 399 words

Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems

📄 Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems #语音合成 #模型评估 #数据集 #语音情感识别 #人类感知评估 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #数据集 #语音情感识别 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Cheng Lin(National Taiwan University) 通讯作者:未说明 作者列表:Yi-Cheng Lin(National Taiwan University)、Huang-Cheng Chou(University of Southern California)、Tzu-Chieh Wei(University of Michigan)、Kuan-Yu Chen(National Taiwan University)、Hung-yi Lee(National Taiwan University) 💡 毒舌点评 亮点在于精准定义了指令引导TTS领域一个被忽视的关键问题——“指令-感知鸿沟”,并首次系统性地引入了程度副词和情感强度形容词这两个细粒度维度进行量化评估,为未来研究提供了明确的改进靶点和高质量的基准数据集(E-VOC)。短板是,虽然评估框架设计精巧,但论文在分析环节更侧重于现象描述(如“模型倾向于生成成人声音”),对于导致这些现象的模型架构差异、训练数据偏差等深层原因挖掘不足,使得结论的启发性略打折扣。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及(论文评估的是已有模型,未提出新模型)。 数据集:论文明确表示将公开发布的“Expressive VOice Control (E-VOC) corpus”,包含60,000+人类评分,但未提供当前获取链接。 Demo:未提及。 复现材料:论文描述了E-VOC的构建过程(文本生成、提示词设计、标注流程、质量控制协议),并提供了评估指标(表2,表3,表4)和结果图表(图1,图2),为复现其评估实验提供了必要信息。 论文中引用的开源项目:引用了Parler-TTS(开源)、PromptTTS++(开源)、UniAudio(开源)的模型或代码库。评估中的其他依赖如CREPE(音高估计模型)、NRC Emotion Intensity Lexicon(情感词典)也是公开资源。 论文中未提及开源计划:关于分析流水线(Analysis Pipeline)的具体代码,论文提到将公开,但未给出链接。 📌 核心摘要 要解决什么问题:当前指令引导的文本转语音(ITTS)系统虽允许用户通过自然语言控制语音风格,但用户指令与听众感知之间的实际对齐程度,尤其是对细粒度属性(如不同强度的情感、不同年龄的声音)的控制能力,尚未被系统性量化研究,存在一个“指令-感知鸿沟”。 方法核心:本文提出了一个全新的评估框架,首次引入“程度副词”(如 slightly, extremely)和“情感强度形容词”(如 Content, Happy, Ecstatic)作为控制维度,结合传统的说话人年龄和词汇重音控制任务,对ITTS系统进行综合评估。为此,他们构建了一个名为E-VOC(Expressive VOice Control)的大规模人类评估数据集,包含超过60,000个人类评分。 与已有方法相比新在哪里:不同于以往研究仅使用粗粒度的情感或风格标签(如“快乐”),或依赖自动分类器进行客观评估,本工作首次在人类感知评估中纳入了连续、分级的表达属性(程度和情感强度),并通过大规模众包获得了可靠的人类感知基准,更直接地反映了用户意图与最终感知的差异。 主要实验结果如何:评估了5个代表性ITTS系统。结果显示:(1) gpt-4o-mini-tts是唯一能在响度、音高、语速和情感强度上可靠遵循程度指令并产生可感知梯度变化的模型。(2) 所有模型在控制说话人年龄方面表现均不佳(最佳准确率仅29.4%),且普遍倾向于生成“成人”声音,即使指令要求“儿童”或“老人”声音。(3) 词汇重音控制极具挑战性,最佳模型(gpt-4o)的准确率也仅为26.5%。具体关键数据见下表。 任务 模型 关键指标(数值) 说话人年龄 (Age) 总体准确率 (最高) 0.294 (Parler-large) 总体准确率 (gpt-4o) 0.289 F1-score (Child, 最高) 0.113 (Parler-large) F1-score (Elderly, 最高) 0.339 (UniAudio) 词汇重音 (Emphasis) 总体准确率 (最高) 0.265 (gpt-4o) 总体准确率 (随机基线) ≈0.143 实际意义是什么:本工作为ITTS系统的评估和开发建立了新的、更贴近真实用户需求的基准。E-VOC数据集的公开将极大推动该领域在细粒度控制、人类感知对齐等方面的研究,并为开发更可靠的自动评估工具提供了训练数据。 主要局限性是:研究仅评估了5个模型,结论的普适性需验证;论文未对导致“指令-感知鸿沟”的具体模型架构或训练因素进行深入分析;评估仅限英语,未涉及多语言场景。 🏗️ 模型架构 论文中未提供具体的模型架构图或详细描述。本文的核心贡献是评估框架、数据集和分析方法,而非提出一个新的TTS模型。文中所评估的ITTS系统(如Parler-TTS, PromptTTS++, gpt-4o-mini-tts)均为已有系统,论文重点在于评估它们在新维度上的表现,而非剖析其内部架构。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 224 words