Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio

📄 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio #音频水印 #语音合成 #音乐生成 #鲁棒性 #生成模型 ✅ 6.2/10 | 前25% | #音频水印 | #语音合成 | #音乐生成 #鲁棒性 | arxiv 学术质量 4.1/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Georgios Milis, Yubin Qin, Yihan Wu, Heng Huang。机构未在提供的原文中明确说明,仅提供项目主页。 💡 毒舌点评 这篇论文的核心idea——用社区检测聚类来对抗重标记化噪声——确实优雅且有效,抓住了问题的本质。作者声称的“Simply Robust”在抵抗重编码噪声和信号处理攻击上得到了有力验证。然而,对于社交媒体上常见的时序修改(裁剪、变速)束手无策,仅给出“线性搜索”等后处理建议,这更像是承认而非解决了一个核心部署短板。理论部分假设条件独立性虽然可理解,但与实际的帧间依赖存在差距,导致理论与经验z分数存在偏差,削弱了理论的普适说服力。超参数(ρ, m)严重依赖网格搜索,谈不上“即插即用”,泛化性存疑。总体而言,它为连续模态的令牌水印提供了一个出色且实用的新范式,但离一个完美的、无短板的解决方案还有距离。 📌 核心摘要 本文针对自回归音频生成模型中,因编解码器重标记化不一致导致的令牌级水印信号衰减问题,提出了一种新颖的、梯度自由的解决方案。核心思想是,将编解码器词汇表中频繁混淆的令牌视为语义相近的邻居,通过构建令牌混淆图并应用Leiden社区检测算法,将原始词汇蒸馏为更鲁棒的集群词汇表。水印的偏差(如KGW中的绿色列表)在集群层面而非令牌层面进行应用。该方法仅需黑盒访问编解码器,在Moshi(对话)、MusicGen(音乐)、CosyVoice3和Spark-TTS(文本到语音)等多种模型与任务上进行了评估。实验表明,该方法将水印的可检测性(\(-\log p\)值)提升了数个数量级,且在信号处理、编解码器转码等多种攻击下表现出显著增强的鲁棒性,同时对生成音频质量的影响与基线方法相比不显著。论文还从统计角度分析了重标记化对检测性的指数衰减影响,并证明了集群匹配率 \(r_{cl} > r\) 能有效缓解此衰减。 🔗 开源详情 代码:论文提供了一个项目主页链接,其中包含实验代码:https://g-milis.github.io/projects/nograd-audio-wm.html 模型权重:未提供。论文使用了现有的开源模型(Moshi, MusicGen, CosyVoice3, Spark-TTS)进行实验,但未提供微调或聚类后的权重下载链接。 数据集:提供了获取链接。 LibriSpeech:https://www.openslr.org/12 (用于Moshi提示和聚类) MusicCaps:https://paperswithcode.com/dataset/musiccaps (用于MusicGen聚类) Free Music Archive & LibriTTS:论文提及但未提供直接链接,可在 https://freemusicarchive.org/ 和 https://openslr.org/60/ 获取 (用于微调MusicGen的编解码器)。 Demo:未提及在线演示链接。 复现材料:论文在附录E (Experimental Details) 中提供了详细的实验设置,包括:用于聚类的音频数量、水印参数 (\(\gamma=0.25\), \(\delta\) 在不同模型取值),生成长度,攻击套件的具体参数,以及关键的集群超参数选择表(表8)。 引用的开源项目:Leiden算法, Mimi/EnCodec编解码器, MusicGen/CosyVoice3/Spark-TTS模型, WMAR基线方法, DAC/SpeechTokenizer/FaCodec编解码器, NISQA/DNSMOSPro/FAD等评估工具。 🏗️ 方法概述和架构 该方法的核心目标是提升令牌级水印在音频生成模型中对重标记化噪声的鲁棒性,且无需微调解码器(梯度自由)。整体架构可分为离线词汇蒸馏和在线集群级水印两个阶段。 ...

2026-05-26 · 更新于 2026-06-15 · 3 min · 504 words

Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control #语音合成 #数据增强 #低资源 📝 5.0/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv 学术质量 5.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文作者为 Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。论文正文中未明确标注作者单位。论文末尾的致谢部分提及了来自 JSPS KAKENHI 和 JST NEXUS 的资助,表明研究可能与日本的学术机构或项目有关,但论文本身未明确说明具体隶属机构。 💡 毒舌点评 这篇论文就像一个精心包装的“数据标注方案说明书”。它为情感TTS中一个被忽视但重要的问题——非言语表达的控制——提出了一个不错的创意。然而,除了这个数据标注“新瓶装旧酒”的点子外,技术贡献乏善可陈。模型是现成的Grad-TTS,加了个情感编码器;实验规模小得可怜(15人的主观评估),还缺乏统计检验,说服力大打折扣。最让人皱眉的是,用一个数据质量存疑、只包含两种情绪的NVTTS作为“粗粒度”基线来衬托自己的“细粒度”,这种对比公平吗?论文在宣称“显著提升表现力”的同时,却轻描淡写自然度的下降和愤怒情绪上的无力,这种选择性报告结果的做法,让“顶会”水准大打折扣。代码和数据集都没开源,复现?自己看着办吧。 📌 核心摘要 当前情感TTS系统主要控制语言韵律,却忽略了对传达情感至关重要的非言语声音(如笑声、哭声)。本文针对现有非言语数据集缺乏细粒度标注的问题,提出了一种新的细粒度非言语表达合成方法。作者从EARS语料库中筛选并处理了女性的非言语片段,设计了一套使用特殊标签(如 <(crying) wuuuuu whep>)来编码非言语类型、频率和持续时间的标注方案。基于Grad-TTS模型,作者添加了情感编码器,并设计了专用的文本处理管线来解析这些细粒度标签,构建了一个情感TTS基准系统。实验表明,该方法在提升情感表现力(eMOS 4.20)和情感识别准确率(平均78.8%)方面优于仅语言基线和粗粒度非言语基线,但代价是轻微的感知自然度下降。细粒度控制在悲伤(98.3%)、快乐(82.5%)和恐惧(82.7%)情绪上效果显著,但在愤怒情绪(64.3%)上提升有限。偏好测试显示,对于快乐情绪,欢呼声比笑声更受青睐;对于悲伤情绪,复杂的多部分哭泣声更受欢迎。 🔗 开源详情 代码:未提供代码仓库链接。 模型权重:未提供。 数据集:未提供处理后的“Fine-Grained Non-Verbal Expression Data”数据集下载链接。原始音频来源于公开的EARS语料库,但作者处理后的版本未公开。用于对比的NVTTS语料库也未提供链接。 Demo:提供了演示页面 https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/ 复现材料:论文提及了训练设置(400k迭代、A6000 GPU)、声学特征(80维梅尔频谱图)和声码器(Hifi-GAN),但未提供完整的模型配置、检查点或详细的复现指南。 论文中引用的开源项目:Whisper, pydub, Hifi-GAN, Grad-TTS (引用论文), CosyVoice2 (引用论文,未提供链接)。 🏗️ 方法概述和架构 本文方法的核心在于为情感TTS构建并利用一套新的细粒度非言语表达数据,而非在模型架构上进行根本性创新。整体框架基于一个现成的情感TTS模型,并为其定制了一条专门的非言语文本处理管线。 ...

2026-05-26 · 更新于 2026-06-15 · 2 min · 287 words

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #模型压缩 🔥 9.4/10 | 前25% | #语音合成 | #生成对抗网络 | #模型压缩 | arxiv 学术质量 6.2/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 未提及具体作者姓名。论文页脚显示该工作部分由JSPS KAKENHI Grants (JP21H05054, JP23K21681, JP24K0296, JP25H01139) 和 JST NEXUS (JPMJNX25C1) 支持,表明研究可能在日本进行。 💡 毒舌点评 这篇论文的核心动机清晰:打破GAN和扩散模型在声码器领域的架构壁垒。其提出的统一ConvNeXt框架在理论上是优雅的,实验也展现了令人印象深刻的推理速度提升,尤其是在CPU上。然而,这种“统一”更像是一种架构复用,而非算法层面的深度融合。将GAN和扩散模型的训练策略强行嫁接到同一个生成器骨架上,虽然高效,但并未提出解决二者根本矛盾的新理论。例如,扩散模型的采样效率问题仅通过子模型和BDDM的噪声调度缓解,并未在生成器架构层面有实质性创新。此外,论文声称解决了“多说话人性能有限”的问题,但实验仅在单一英文数据集LibriTTS-R上进行,说服力有限。作者坦诚了模型尺寸随子模型数量线性增长的问题,但这在资源敏感的场景下是显著的缺点。总体而言,这是一篇扎实的工程优化论文,将现有技术(ConvNeXt、子模型训练、BDDM)巧妙组合,取得了显著的性能提升,但理论创新性稍显不足。 📌 核心摘要 本文提出了WaveNeXt 2,一个基于ConvNeXt架构的统一神经声码器框架,可兼容GAN和扩散模型两种范式。其核心创新在于引入了残差去噪和子模型结构,使每个子模型能在推理过程中逐步优化波形。实验在LibriTTS-R多说话人数据集上进行,结果表明:(1) GAN-WaveNeXt 2在保持与HiFi-GAN、WaveFit相当合成质量的同时,实现了显著更快的推理速度(相比WaveFit,GPU RTF降低70%,CPU降低90%)。(2) Diff-WaveNeXt 2在采用子模型训练后,相比4步FastDiff,具有竞争力的质量和更快的推理速度(CPU RTF降低80%),且训练时间极短(仅32小时),适合资源受限的应用。 🔗 开源详情 代码:论文自身未提供代码仓库链接。但引用了以下第三方开源实现: ParallelWaveGAN (用于实现HiFi-GAN V1): https://github.com/kan-bayashi/ParallelWaveGAN wavefit-pytorch (WaveFit实现): https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff: https://github.com/Rongjiehuang/FastDiff Vocos (ConvNeXt生成器基础): https://github.com/gemelo-ai/vocos 模型权重:未提及任何模型权重的下载链接。 数据集:使用LibriTTS-R数据集。论文未直接提供链接,但该数据集可通过Hugging Face等平台获取,例如:https://huggingface.co/datasets/hf-internal-testing/libritts_r。论文使用的子集为train-clean-100、train-clean-360(训练)和test-clean-100(评估)。 Demo:提供了项目主页和语音样本演示页面:https://37integer.github.io/WAVENEXT-2。 复现材料:未提及具体的训练配置文件、模型检查点或详细的附录文档链接。 🏗️ 方法概述和架构 WaveNeXt 2框架的核心是一个可复用的WaveNeXt-based生成器,其设计目标是通过统一的残差去噪和子模型结构,适配GAN与扩散两种训练范式。 ...

2026-05-26 · 更新于 2026-06-15 · 3 min · 552 words

Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection -- Submission for WildSpoof 2026 TTS Track

📄 Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection – Submission for WildSpoof 2026 TTS Track #语音合成 #语音伪造检测 #迁移学习 #数据清洗 #鲁棒性 📝 5.2/10 | 后50% | #语音合成 | #迁移学习 | #语音伪造检测 #数据清洗 | arxiv 学术质量 3.7/7 | 影响力 0.8/2 | 可复现性 0.7/2 | 置信度 0.8 👥 作者与机构 未提及。 💡 毒舌点评 首先,作为一篇提交给特定挑战赛的技术报告,其定位本就偏向工程实现和结果汇报,而非追求根本性的算法创新。最大的槽点在于信息完整性缺失严重:作者、所属机构等基本信息均未披露,这对于一篇正式学术论文而言是不可接受的,严重损害了工作的可信度和可追溯性。其次,论文虽然声称“novel”,但其核心贡献——在微调中加入EMA和基于LLM/LALM的数据筛选——在TTS或更广泛的深度学习领域中都已是成熟技术,创新性有限。论文最大的亮点是挑战赛榜单上的最佳a-DCF分数,但这高度依赖于特定的挑战赛设置和评估系统,其普适价值需要更多验证。写作清晰,但部分关键评估细节(如其他参赛模型具体架构)的缺失,使得对比分析的深度大打折扣。 📌 核心摘要 本文为WildSpoof 2026挑战赛TTS赛道的技术报告,提出了F5-TTS-DPS模型。该模型在F5-TTS基础上,通过两项改进提升在真实场景数据上的合成鲁棒性:1)在监督微调中引入指数移动平均(EMA)以稳定训练过程;2)提出双重评分提示选择(DPS)机制,利用大型音频语言模型(LALM,即Qwen2.5-Omni)和大型语言模型(LLM,即Qwen3-30B-A3B)对参考音频和文本提示进行两阶段筛选,以确保输入质量。实验在挑战赛官方开发集上进行,消融实验显示各组件带来性能渐进提升。最终模型在主要评估指标a-DCF上取得所有参赛模型中的最佳成绩,表明其合成语音最难被反欺骗系统检测。 🔗 开源详情 代码:未提供。 模型权重:论文中使用并提供了基线模型F5-TTS v1的权重链接:https://huggingface.co/SWivid/F5-TTS/tree/main/F5TTS_v1_Base。未提供微调后F5-TTS-DPS模型的权重。 数据集:使用了WildSpoof Challenge官方发布的TITW-easy和TITW-hard数据集子集,未提供独立下载链接或开源协议。 Demo:未提及在线演示。 复现材料: 训练配置:提供了详细的超参数设置(见“细节详述”部分)。 评估工具:使用VERSA工具进行评估。 提示模板:在附录A中提供了用于音频和文本筛选的完整提示模板(Prompt)。 论文中引用的开源项目: F5-TTS:基础模型,提供了链接。 Qwen2.5-Omni:用于音频评分的LALM,未提供链接。 Qwen3-30B-A3B:用于文本评分的LLM,未提供链接。 Whisper:用于计算WER的ASR系统,未提供链接。 ESPnet2:用于提取说话人嵌入,未提供链接。 AASIST:用于计算SDS的反欺骗系统,未提供链接。 VERSA:评估工具,未提供链接。 🏗️ 方法概述和架构 本文方法建立在F5-TTS基座模型之上,针对“野外”数据(TITW)的噪声和多样性特点,引入了训练稳定性增强和输入质量优化两个核心组件。 ...

2026-05-25 · 更新于 2026-06-15 · 2 min · 320 words

StepAudio 2.5 Technical Report

📄 StepAudio 2.5 Technical Report #统一音频模型 #多任务学习 #强化学习 #语音合成 #语音识别 #实时处理 #模型评估 🔥 8.3/10 | 前25% | #统一音频模型 | #多任务强化学习对齐 | #多任务学习 #强化学习 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 论文标题: StepAudio 2.5 Technical Report 作者团队: StepFun-Audio Team(贡献者按字母顺序排列,核心贡献者与一般贡献者分开列出) 机构: 未在论文中明确说明,但根据作者团队名称和项目历史推断为 StepFun (阶跃星辰) 的音频团队。 💡 毒舌点评 这份报告像一份精心包装的产品说明书,而非一篇严谨的学术论文。其优点在于清晰地呈现了一个庞大系统的工程设计哲学——“任务特化源于操作规则”,并成功地将ASR、TTS和实时交互塞进了一个共享骨干。然而,对于顶会审稿人而言,这份报告最令人抓狂的是其“技术性模糊”:核心的MoE LLM骨干到底有多大?专家数几何?音频编码器是哪款?统统“未提及”。这就像给你看一辆跑车的赛道成绩,却把引擎盖焊死了不让你看。实验部分,ASR的表格详实可信,但TTS和实时交互的评估则严重依赖自建基准和主观评测,其公平性和可复现性要打个大问号。最遗憾的是,作为一份“技术报告”,它缺乏对关键创新点(如MTP的理论收益边界、RLHF奖励模型的具体设计)的深度分析和消融实验,显得更像是一份内部研发总结,而非可供社区深入研读和复现的学术贡献。 📌 核心摘要 本文介绍了StepAudio 2.5,一个统一的音频-语言基础模型,旨在通过单一共享骨干网络,匹配或超越专用于语音识别(ASR)、语音合成(TTS)和实时语音交互(Realtime)的专用系统。论文的核心论点是,一旦文本和音频共享一个高质量的多模态表示空间,任务间的差异便从架构设计转向了“操作机制”:即数据构建、优化目标和解码约束。基于此,作者提出了一种以强化学习从人类反馈(RLHF)为核心的后训练范式,将其作为定义复杂优化目标的主要机制。该范式结合任务特定的监督微调(SFT)和解码策略,将共享骨干塑造成三种不同的操作模式:ASR分支通过可验证的多头预测(MTP)提升转录效率;TTS分支通过基于偏好的RLHF和上下文丰富的监督实现可控、富有表现力的合成;Realtime分支则通过生成奖励建模在RLHF框架内实现低延迟、角色一致的对话。在标准基准测试上,StepAudio 2.5在ASR、TTS和实时交互任务上均取得了有竞争力的结果。 🔗 开源详情 代码:论文提及了一个用于生成ASR长形式评���数据集(WenetSpeech testnet long)的代码仓库:https://github.com/lawlict/wenetspeech-testnet-long.git。论文未提及StepAudio 2.5模型主体的完整代码开源链接。 模型权重:论文未提及模型权重的公开下载链接(如HuggingFace, ModelScope)。 数据集: 论文中使用的公开数据集包括:AISHELL-1, AISHELL-2, WenetSpeech, FLEURS, LibriSpeech, Common Voice, VoxPopuli, Earnings22。论文未提供这些数据集的直接获取链接。 论文描述了其用于ASR长形式评估的“WenetSpeech testnet long”子集的构建方法,并提供了生成代码的GitHub仓库。 论文未提及TTS和Realtime训练所用具体数据集(特别是其角色矩阵和副语言标注数据)的公开获取方式。 Demo:论文中未提及在线演示链接。 复现材料:论文详细描述了模型架构、训练流程(包括各阶段超参数)和评估方法,但未提供具体的训练配置文件、检查点下载或实验附录的直接链接。 🏗️ 方法概述和架构 StepAudio 2.5的核心架构是一个共享的音频-语言骨干,采用非对称设计(图1)。该架构由三个主要组件构成:1)冻结的音频编码器:负责将原始音频波形转换为紧凑的声学嵌入表示,其参数在训练过程中保持固定,以确保声学特征提取的稳定性。2)轻量级适配器:一个可训练的模块,负责将音频编码器输出的声学嵌入映射到语言模型(LLM)解码器的隐藏空间中。3)大型语言模型解码器:从预训练的文本LLM初始化,是模型的核心,承载语义理解、上下文管理、指令遵循和生成任务。这种设计有意让编码器专注于稳定的声学抽象,而将语义和生成的重担交给解码器,从而使得不同下游任务可以共享大部分模型。 ...

2026-05-25 · 更新于 2026-06-15 · 2 min · 376 words

Evaluating Speech Articulation Synthesis with Articulatory Phoneme Recognition

📄 Evaluating Speech Articulation Synthesis with Articulatory Phoneme Recognition #语音质量评估 #音素识别 #语音合成 #发声特征 #模型评估 #数据集 #评估指标 🔥 8.2/10 | 前25% | #语音质量评估 | #音素识别 | #语音合成 #发声特征 | arxiv 学术质量 5.2/7 | 影响力 1.3/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Vinicius Ribeiro 通讯作者:未说明 作者列表:Vinicius Ribeiro†, Yves Laprie 机构信息:根据论文脚注,此项工作是在作者于“相关实验室”攻读博士学位期间完成的。论文本身未提供更具体的大学或研究所名称。 💡 毒舌点评 本文将语音识别(ASR)的角色从“任务执行者”巧妙转变为“质量裁判”,为发声合成评估提供了一种新颖且信息丰富的客观度量方法。这比传统的点距离或声道变量测量更具物理意义和语音学洞察力。然而,这项工作的验证严格局限于单说话人的法语数据集,这在一定程度上限制了其结论的普适性。未来在多说话人、多语言场景下的验证是其能否成为领域标准工具的关键。此外,论文在部分关键训练细节和方法实现上的描述不够具体,影响了完全的可复现性。 📌 核心摘要 解决什么问题:发声合成领域缺乏一种既能客观量化合成质量,又能捕捉发音关键语音学细节(如发音位置)且不依赖主观感受或复杂声学仿真的通用评估指标。 方法核心:提出使用一个在真实发声特征(来自RT-MRI)和声学特征上训练的“发声音素识别器”作为评估代理。通过计算不同合成发声特征输入该识别器后得到的音素错误率(PER),来量化合成特征中保留的语音学信息量,与下游可理解性目标直接挂钩。 新在哪里:与传统的点对点距离或发声参数测量不同,此方法从信息保留的角度进行评估,将评估问题转化为识别任务。它提供了一个端到端的、与人类语音学知识相符的评估信号,且不依赖复杂的声学解算。 主要实验结果: 主要实验结果见下表。 特征集 声带编码 PER 声学特征 - 23.30 真实发声特征 无 23.65 音素平均轮廓 无 47.22 无模型方法 无 24.34 自编码器方法 无 38.85 真实发声特征 有 21.66 音素平均轮廓 有 43.18 无模型方法 有 20.59 自编码器方法 有 31.69 添加声带编码后,所有基于真实和合成发声特征的识别性能均得到提升(例如,真实特征PER从23.65降至21.66)。 无模型发声合成器在加入声带编码后,取得了最低PER(20.59),甚至略优于使用训练集相同真实特征(有编码)得到的PER(21.66)。论文推测这可能是由于合成器过滤了真实特征中的噪声。 自编码器方法的PER(31.69)显著高于无模型方法,但优于基线的平均轮廓方法。 混淆矩阵和t-SNE可视化显示,该评估指标能有效区分模型在语音学类别(如发音位置)上的表现差异,且无模型方法生成的特征在表示空间中与真实特征结构更相似。 实际意义:为发声合成领域提供了一种新颖、客观且与语音学理解强相关的评估工具,有助于指导和区分不同合成模型的优劣,特别是捕捉传统指标遗漏的语音学信息维度。 ...

2026-05-21 · 更新于 2026-06-15 · 2 min · 353 words

Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech

📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech #语音合成 #扩散模型 #数据集 #基准测试 #开源 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度 高 👥 作者与机构 第一作者:Semin Kim(首尔国立大学;KRAFTON) 通讯作者:未说明 作者列表:Semin Kim(首尔国立大学;KRAFTON),Seungjun Chung(KRAFTON),Taehong Moon(KRAFTON),Sangheon Lee(KRAFTON;韩国科学技术院),Minyoung Ahn(KRAFTON;首尔国立大学),Keon Lee(KRAFTON),Nam Soo Kim(首尔国立大学),Jaewoong Cho(KRAFTON),Ludwig Schmidt(斯坦福大学),Kangwook Lee(KRAFTON;Ludo Robotics;威斯康星大学麦迪逊分校),Dongmin Park(KRAFTON)。 💡 毒舌点评 亮点:论文在推动TTS研究开源化和可复现性方面堪称典范,提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池(Raon-OpenTTS-Pool)和有效的数据过滤策略,为社区提供了宝贵的研究资源。 短板:模型架构方面毫无创新,完全沿用F5-TTS的DiT框架,核心贡献高度依赖于“数据工程”和规模效应,技术深度有限。这在一定程度上削弱了其在算法层面的贡献。 📌 核心摘要 问题:当前顶尖的TTS模型(如Qwen3-TTS, CosyVoice 3)性能卓越,但其训练数据和处理流程不公开,阻碍了研究的可复现性和系统性进步。现有开源TTS模型(如基于Emilia训练的F5-TTS、MaskGCT)与闭源SOTA模型在性能上仍有差距。 方法核心:构建了Raon-OpenTTS-Pool(615K小时英语语音数据池,整合自11个公开数据源),并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线,从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集,作者沿用F5-TTS的扩散Transformer(DiT)架构(不作修改),训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外,提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准(涵盖Clean、Noisy、Wild、Expressive四种条件)。 新意:其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同,本文证明了通过精心构建、过滤的大规模多源开源数据,可以显著提升现有TTS架构的性能,并建立了完整的开源研究基础设施(数据、模型、评估)。 结果:在Seed-TTS-Eval上,Raon-OpenTTS-1B的WER为1.78%,SIM为0.749,在开源模型中分别排名第二和第一。在CV3-Hard-EN上,其WER(6.15%)和SIM(0.775)均为最佳。在自建的Raon-OpenTTS-Eval上,Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳,并在人工评估中取得第二好的CMOS分数。 意义:证明了使用大规模、经过筛选的开源数据,可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型,极大地促进了该领域的透明化、可复现研究。 局限:模型架构本身无创新;当前研究仅限于英语;数据过滤策略可能较为保守,未来可探索数据修正;多源数据混合策略有优化空间。 🔗 开源详情 代码:https://github.com/krafton-ai/RAON-OpenTTS 模型权重:论文明确承诺公开“训练代码和检查点”,因此模型权重可通过上述GitHub仓库获取。 数据集: 数据集名称:Raon-OpenTTS-Pool,一个包含61.5万小时英语语音的大型开放数据池,聚合自11个公开语料库和网络录制。 数据集名称:Raon-OpenTTS-Core,是从Raon-OpenTTS-Pool中筛选出的高质量子集(51万小时,1.94亿语音片段)。 获取方式:论文明确承诺公开“数据池和过滤流程”,因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。 Demo:论文中未提及。 复现材料:论文中提到了公开的“训练代码和检查点”,因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。 论文中引用的开源项目: UVR-MDX(用于音源分离):https://github.com/Anjok07/ultimatevocalremovergui PyAnnote 3.1(用于说话人分割):https://huggingface.co/pyannote/speaker-diarization-3.1 Silero VAD(用于语音活动检测):https://github.com/snakers4/silero-vad Whisper-large-v3(用于自动转录):https://huggingface.co/openai/whisper-large-v3 HiFi-GAN(用于波形合成):https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz 🏗️ 方法概述和架构 本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线,其核心流程为:聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。 ...

2026-05-21 · 更新于 2026-06-15 · 3 min · 542 words

Bridging the Gap: Converting Read Text to Conversational Dialogue

📄 Bridging the Gap: Converting Read Text to Conversational Dialogue #语音转换 #生成模型 #语音合成 📝 3.1/10 | 后50% | #语音转换 | #生成模型 | #语音合成 | arxiv 学术质量 2.6/8 | 影响力 0.5/1 | 可复现性 0/1 | 置信度 高 👥 作者与机构 第一作者:Parshav Singla (Thapar Institute of Engineering and Technology, Patiala, India) 通讯作者:Dr. Shruti Aggarwal, Dr. Anil Kumar Verma (邮箱见原文) 作者列表:Parshav Singla, Agnik Banerjee, Aaditya Arora, Shruti Aggarwal, Anil Kumar Verma (均来自Thapar Institute of Engineering and Technology), Vikram C M, Raj Prakash Gohil, Gopal Kumar Agarwal (均来自Samsung Research and Development Institute, Bangalore, India) 💡 毒舌点评 亮点:论文选题直接,针对朗读语音单调性这一实际问题,明确应用了高性能的HiFi-GAN声码器进行语音合成,任务目标清晰。文献综述部分对语音转换的挑战和GAN的应用有较好的概述。 短板:论文最大的缺陷是名不副实。标题和摘要声称提出“PACC”这一新颖方法,但全文未提供该方法的任何实质性技术描述、架构设计或实现细节。论文实质上是一篇关于使用标准HiFi-GAN模型进行语音合成的简短应用报告,创新性严重不足。实验部分设计粗糙,基线模糊,缺乏关键细节,导致结论可信度低。 ...

2026-05-19 · 更新于 2026-06-15 · 2 min · 277 words

SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis

📄 SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis #语音合成 #自回归模型 #扩散模型 #预训练 #零样本 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #预训练 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Huimeng Wang(香港中文大学) 通讯作者:Shiyin Kang(商汤科技) 作者列表:Huimeng Wang(香港中文大学)、Hui Lu(香港中文大学)、Jiajun Deng(香港中文大学)、Haoning Xu(香港中文大学)、Youjun Chen(香港中文大学)、Xueyuan Chen(香港中文大学)、Zhaoqing Li(香港中文大学)、Shuhai Peng(清华大学)、Shiyin Kang(商汤科技)、Xunying Liu(香港中文大学) 💡 毒舌点评 论文针对连续自回归语音合成中VAE表示优化目标与TTS语义-韵律建模需求不匹配的问题,提出了一个直观且工程上合理的解决方案——在VAE阶段引入预训练语音基础模型(如WavLM)的特征进行对齐。其核心创新更偏向于一种精心设计的“预训练知识蒸馏”或“特征对齐”工程组件,而非具有广泛理论启发性的突破。实验在极具挑战性的Seed-TTS基准上取得了有竞争力的结果,但绝对性能(如说话人相似度)并未全面超越SOTA,且高达150K小时的训练数据和H200 GPU的使用门槛,严重削弱了其作为方法论研究的可复现性与普惠价值。 📌 核心摘要 问题:连续自回归语音合成模型中,作为输入的连续语音表示(通常由VAE学习)主要优化于波形重建保真度,这与下游自回归TTS模型需要建模的高层语义-韵律信息存在“不匹配”。这迫使TTS模型过度关注低级声学纹理,牺牲语义连贯性,并加剧了自回归生成中的错误累积。 方法核心:提出SemaVoice框架。其核心是在VAE训练阶段引入一个语音基础模型(SFM)引导的对齐机制。通过计算帧级一致性损失和成对结构一致性损失,将VAE学习到的连续表示显式地与冻结的SFM(如WavLM)提取的高层语义特征进行对齐,旨在从表示根源改善语义信息保留。 新意:与多数在TTS模型上添加额外模块的方法不同,SemaVoice将语义对齐的干预前置到表示学习(VAE)阶段,试图从根本上优化表示空间的性质,使其更利于下游的自回归建模,且不改变下游TTS架构。此外,采用了补丁式扩散头(LocDiT)并引入历史条件建模以增强局部生成稳定性。 主要实验结果:在Seed-TTS基准测试中,SemaVoice(使用150K小时数据)取得了具有竞争力的客观和主观结果: 英语:WER 1.71%,说话人相似度(SIM)0.694。 中文:CER 1.18%,SIM 0.754。 困难子集:CER 8.09%,SIM 0.711。 主观评估:英文N-MOS 3.98,S-MOS 3.89;中文N-MOS 4.07,S-MOS 4.03。 消融实验证明,移除SFM对齐导致WER从2.97%升至3.40%,SIM从0.635降至0.625;移除历史条件建模导致性能大幅下降(WER 8.46%,SIM 0.587)。 实际意义:为解决连续自回归TTS中的表示-建模不匹配问题提供了一种新思路,通过在表示学习阶段注入语义先验,可能提升生成语音的语义连贯性。 主要局限性:作者承认评估仅限于中英双语数据集;作为自回归框架,面临推理延迟和长序列错误累积的固有挑战。此外,方法需要大规模训练数据和计算资源。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:训练使用了开源数据集Emilia,链接为 https://huggingface.co/datasets/amphion/Emilia 。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了训练配置的详细描述(如VAE和TTS模型的训练步数、批量大小、学习率、损失权重等),但未提供具体的预训练检查点、完整复现脚本或训练好的模型权重。 论文中引用的开源项目: Emilia 数据集: https://huggingface.co/datasets/amphion/Emilia WavLM-large 模型: https://huggingface.co/microsoft/wavlm-large Qwen2.5-1.5B 模型: https://huggingface.co/Qwen/Qwen2.5-1.5B Whisper-large-v3 模型: https://huggingface.co/openai/whisper-large-v3 Paraformer-zh 模型: https://huggingface.co/funasr/paraformer-zh WavLM 模型用于说话人相似度计算: https://github.com/microsoft/UniSpeech/tree/main/WavLM 其他基线系统(如 F5-TTS, MaskGCT, CosyVoice, Spark-TTS, FireRedTTS, IndexTTS 2, VoxCPM, VibeVoice, HiggsAudio-v2, Qwen2.5-Omni)在论文中被引用和比较,但未提供这些系统自身的代码仓库链接。 🏗️ 方法概述和架构 SemaVoice是一个端到端的文本到语音合成系统,其整体流程可分为两个阶段:带SFM语义对齐的连续表示学习(VAE训练) 和 基于连续表示的自回归语音生成(TTS训练与推理)。整体架构如论文图1所示。 ...

2026-05-19 · 更新于 2026-06-15 · 3 min · 550 words

Taming Audio VAEs via Target-KL Regularization

📄 Taming Audio VAEs via Target-KL Regularization #音频生成 #语音合成 #变分自编码器 #扩散模型 #音频编码 #率失真理论 ✅ 6.7/10 | 前50% | #音频生成 #语音合成 | #变分自编码器 #扩散模型 | #音频生成 #语音合成 | arxiv 学术质量 5.5/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Prem Seetharaman(论文原文未提及具体机构) 通讯作者:未说明 作者列表:Prem Seetharaman(未说明),Rithesh Kumar(未说明) 💡 毒舌点评 这篇论文为音频VAE训练中“正则化强度选择”这一老大难问题提供了一个系统化的解决方案(Target-KL),并通过统一的率失真框架让不同架构的比较变得公平透明,这是其扎实的贡献。然而,作为一篇旨在提供“框架”和“方法”的工作,其实验高度依赖于单一的DAC架构变体和未公开的内部数据,且缺乏核心代码的开源复现,这极大地限制了其实际影响力和可验证性。其声称建立“统一框架”的雄心,在缺乏对其他主流VAE架构验证的情况下,显得略有不足,更像是一篇针对特定模型的、扎实的实用技巧报告。 📌 核心摘要 问题:在潜在扩散模型中,音频VAE的训练面临重建质量与潜在空间正则化之间的权衡。手动调整KL权重λ既不直观也难以系统性研究,导致训练过程具有“神秘性”。 方法核心:提出Target-KL正则化,将VAE训练目标从调λ转变为直接优化以达到预设的KL目标值(对应特定比特率)。这使得研究者能系统地训练固定比特率的VAE,从而研究率失真权衡。同时,通过理论推导建立了连续VAE的KL散度与离散音频编解码器比特率之间的统一换算公式。 与已有方法相比新在哪里:不同于传统调λ或“自由比特”方法(后者设KL下界),该方法直接将KL散度回归到一个目标值。它提供了一个统一的框架,在相同比特率下直接、公平地比较连续(如VAE)与离散(如VQ-VAE)音频压缩模型,这是此前音频领域缺乏的。 主要实验结果: 压缩质量:提出的DAC-VAE(连续版本)在率失真曲线上帕累托最优,优于同架构的离散DAC及其他VAE模型(SpectroStream, Stable Audio VAE)。(见图1) 文本到音效生成:在不同比特率的DAC-VAE上训练的扩散模型,性能(FLAM指标)先升后降,在目标KL≈200(对应约11.56 kbps)时达到最佳。(见表2) 文本到语音合成:低比特率VAE训练的TTS扩散模型在WER(字错率)和SSIM(说话人相似度)上表现更好,但高比特率下生成的语音可能更自然(通过定性观察判断)。(见表3) 消融实验:在DAC-VAE架构中加入CQT判别器和passthrough训练技巧,可以在相似比特率下提升重建质量(Mel距离降低)。(见表1) 实际意义:为训练用于生成任务的音频VAE提供了一个更可控、可复现的框架,有助于从业者根据下游任务需求选择合适的压缩率,减少了试错成本。 主要局限性:研究局限于DAC架构,未验证方法在其他VAE架构上的普适性;下游生成任务评估使用的扩散模型架构固定,未探讨VAE与生成模型规模的交互影响;TTS任务中的反常现象(低WER vs. 潜在低自然度)解释不足;严重依赖未公开的内部数据集和模型,缺乏开源代码和权重,可复现性差。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。实验使用了作者在内部私有数据集上训练的模型,并评估了已有的开源模型(EnCodec, Stable Audio VAE, DAC)。 数据集: Adobe Audition SFX 数据集:用于文本到音效生成的评估集,提供了链接:https://www.adobe.com/products/audition/offers/adobeauditiondlcsfx.html 训练数据集:论文中多次提及使用了 “internal proprietary and licensed dataset” 以及英文子集的 CommonVoice、Librivox 和 Emilia-YODAS 数据集,但未提供这些私有或完整数据集的公开下载链接。 Demo:论文中未提及。 复现材料:论文中提及了关键的训练配置细节,例如:训练步数(如250k, 300k, 400k)、批大小(128)、音频采样率(48kHz)、模型参数量(如740M, 1B)等,但未提供完整的训练脚本、配置文件或检查点供下载。 论文中引用的开源项目: Adobe Audition SFX 数据集:https://www.adobe.com/products/audition/offers/adobeauditiondlcsfx.html T5-XXL (文本嵌入模型):论文中引用,其开源实现可参考Hugging Face Transformers库或原论文。 Whisper Large-v3 (WER评估工具):OpenAI开源模型。 WavLM (SSIM评估工具):Microsoft开源模型。 phonemizer (音素提取库):论文中提及使用该库从文本中提取音素。 DAC, EnCodec, SpectroStream, Stable Audio VAE:论文中比较的现有音频自编码器模型,均为已发表的工作,部分开源。 🏗️ 方法概述和架构 本论文的核心方法是Target-KL正则化框架,用于训练固定比特率的音频变分自编码器(VAE),并将其应用于下游的文本到音频/语音生成任务。这是一个端到端的研究框架,涵盖了从VAE压缩模型训练到生成模型评估的全流程。 ...

2026-05-19 · 更新于 2026-06-15 · 3 min · 434 words