Hierarchical Discrete Flow Matching For Multi-Codebook Codec-Based Text-To-Speech

📄 Hierarchical Discrete Flow Matching For Multi-Codebook Codec-Based Text-To-Speech #语音合成 #流匹配 #零样本 #音频生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #音频生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文中列出了多位作者,未明确指出第一作者) 通讯作者:未说明(论文中未明确指出) 作者列表:Joun Yeop Lee(三星研究院,三星电子)、Heejin Choi(三星研究院,三星电子)、Min-Kyung Kim(三星研究院,三星电子)、Ji-Hyun Lee(三星研究院,三星电子)、Hoon-Young Cho(三星研究院,三星电子) 💡 毒舌点评 该论文巧妙地将RVQ编解码器的“由粗到细”先验知识,内化为流匹配模型的训练课程与推理调度,逻辑清晰且实验增益显著,这是其最亮眼的工程创新。然而,论文对训练细节的“黑箱化”处理(如模型具体大小、完整超参数列表、训练时长)和仅有演示页面而无代码公开的现状,让其学术严谨性和社区复现性大打折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了LibriTTS和Emilia数据集,但未说明是否提供自定义处理版本。LibriTTS是公开数据集,Emilia数据集信息未说明。 Demo:提供了在线演示页面:https://srtts.github.io/hierarchical-dfm 复现材料:论文中给出了部分训练细节(如数据集、迭代步数、GPU型号),但缺失关键超参数(模型维度、完整优化器配置)和训练时长,复现材料不充分。 论文中引用的开源项目:依赖的开源项目/模型包括F5-TTS、HiFi-Codec、Whisper-large-v3、WavLM-large、UTMOS。 整体开源情况:论文中未提及全面的开源计划。 📌 核心摘要 要解决什么问题:现有将离散流匹配(DFM)应用于基于残差向量量化(RVQ)的文本到语音(TTS)时,通常将所有码本视为同等,忽略了浅层码本(捕获粗结构)与深层码本(细化细节)之间的层次依赖关系,导致性能受限。 方法核心是什么:提出分层离散流匹配(H-DFM)。核心包括两方面:训练阶段,采用随机粗细模式课程学习——粗模式下遮蔽细码本噪声样本,仅更新粗码本头;细模式下用真实粗码本条件化,仅更新细码本头。推理阶段,采用粗偏向的两阶段调度——先用大部分步骤(Bc步)稳定粗码本(全局结构),再用少量步骤(Bf步)细化细码本。 与已有方法相比新在哪里:首次系统性地将RVQ的层次结构显式对齐到DFM的训练与推理过程中。相比直接应用DFM(F5-DFM),H-DFM通过架构(多头)和策略(课程学习、偏向调度)强制模型学习码本间的依赖关系,而非独立预测。 主要实验结果如何: 在零样本TTS评估中(NFE=32,粗细比例1/16),H-DFM相比基线显著提升。 关键客观指标对比: 模型 WER (%) ↓ SECS ↑ UTMOS ↑ F5-TTS (连续FM基线) 4.559 0.605 3.853 F5-DFM (朴素离散FM) 4.434 0.564 4.013 F5-H-DFM (本文方法) 3.036 0.609 4.205 H-DFM在可懂度(WER)和说话人相似度(SECS)上均取得最优,并在自然度(UTMOS)上也有较大提升。 消融实验表明,粗细推理比例(rcf=1/16)优于更平衡的比例(1/8, 1/2),验证了粗偏向策略的有效性。 实际意义是什么:为基于RVQ的高质量、非自回归TTS提供了一种更高效的解码方案。通过尊重编解码器的设计原理,可以在固定计算预算下获得更好的合成质量,对追求低延迟和高质量语音合成的工业应用有直接价值。 主要局限性:方法依赖于特定编解码器(HiFi-Codec)的固定层次结构和预先定义的粗细划分;训练与推理调度中的超参数(如pc=0.7, rcf=1/16)需要手动调整;论文未详细公开所有训练细节和模型参数,限制了可复现性。 🏗️ 模型架构 H-DFM的模型架构基于F5-TTS的扩散Transformer(DiT)主干网络进行修改。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 366 words

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

📄 How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection #音频深度伪造检测 #数据集 #模型评估 #语音合成 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #模型评估 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Xiao (斯图加特大学自然语言处理研究所) 通讯作者:未说明(论文未明确指出) 作者列表:Yixuan Xiao (斯图加特大学自然语言处理研究所)、Florian Lux (AppTek GmbH)、Alejandro Pérez-González-de-Martos (AppTek GmbH)、Ngoc Thang Vu (斯图加特大学自然语言处理研究所) 💡 毒舌点评 论文精准地抓住了“编解码器重合成音频既像好人又像坏人”这个痛点,并用一套严谨的实验给出了“看它心是为压缩而跳还是为合成而跳”的诊断思路,实用性拉满。不过,作者似乎更满足于揭示“病症”和提出“用药建议”,而对如何从根源上(即检测器架构层面)提升对这类模糊样本的鲁棒性,着墨甚少。 🔗 开源详情 代码:提供。论文中给出了GitHub仓库链接:https://github.com/XIAOYixuan/IMS-ADD/tree/codec-add,包含了训练脚本和代码库。 模型权重:未明确提及是否开源预训练的检测器权重。 数据集:公开。提供了两个获取途径:HuggingFace (https://huggingface.co/datasets/Flux9665/CodecDeepfakeDetection) 和 Zenodo (https://zenodo.org/records/17225924)。 Demo:未提及。 复现材料:提供了详细的训练超参数、数据增强策略、��据集划分统计等关键复现信息。 论文中引用的开源项目:引用了多个开源TTS系统和NAC模型作为攻击源,包括Llasa (XCodec2), MARS5 (EnCodec), CSM (Mimi), OpenAudio S1-mini (DAC), CosyVoice2/Chatterbox (S3Tokenizer),以及检测器AASIST。 📌 核心摘要 本文针对音频深度伪造检测领域中神经音频编解码器(NAC)的双重角色问题展开研究。NAC既可用于音频压缩传输(产生编解码器重合成音频CoRS),又可作为语音合成系统的声码器(产生编解码器语音合成音频CoSG)。这使得训练检测器时面临困境:CoRS应标注为真实还是伪造?为解决此问题,本文构建了一个基于ASVspoof 5协议的扩展数据集CodecDeepfakeDetection,包含多种TTS系统(Llasa, MARS5等)和NACs(EnCodec, Mimi, DAC等)。核心创新在于系统性地评估了将CoRS标注为“真实”或“伪造”对不同检测器(X-AASIST, LWBN)性能的影响。实验发现,标注策略的有效性取决于NAC的设计目标:对于以压缩为导向的NAC(如EnCodec, DAC),将其重合成音频标注为伪造会导致检测器过度学习编解码器伪影,从而错误拒绝经该NAC压缩的真实音频;而对于以合成为导向的NAC(如Mimi),将其标注为伪造更有效。主要实验结果表明,未使用NAC数据增强的基线模型在面对混合了CoRS的测试集时,等错误率(EER)高达约40%,而采用合适的增强策略(对部分NAC作为真实数据)可将其显著降低约8-11个百分点。本文的实际意义在于为构建对编解码器技术演变更鲁棒的检测系统提供了明确的数据标注指南。主要局限性在于研究主要集中于分析和提供见解,而非提出一个全新的、能统一处理此类模糊性的检测模型。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 243 words

IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction

📄 IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction #语音编码 #语音合成 #信号处理 #轻量模型 #流式处理 ✅ 7.0/10 | 前25% | #语音编码 | #信号处理 | #语音合成 #轻量模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Peng Zhou(北京理工大学) 通讯作者:Shenghui Zhao*(北京理工大学) 作者列表:Peng Zhou(北京理工大学),Xiaojiao Chen(北京理工大学),Pincheng Lu(北京理工大学),Jing Wang(北京理工大学),Shenghui Zhao*(北京理工大学) 💡 毒舌点评 亮点:论文精准抓住了“低比特率下低频更重要”这一经典信号处理直觉,并将其与神经网络结合,通过一个轻量的带间预测模块(IBPM)在解码端“猜”出高频,以极小的计算代价(0.35 GMACs)实现了有竞争力的性能,这种“巧劲”值得在资源受限场景下借鉴。 短板:IBPM目前的结构(三层逐点卷积)过于简单,其预测能力存在明显天花板(当P=0.5时质量下降),本质上仍是低频信息的线性外推,论文未探讨更强大的生成式预测模型(如扩散模型)的可能性;此外,模型在1 kbps下的绝对质量(PESQ 2.2)距离“可用”仍有距离,创新性更多是工程上的巧妙设计而非原理性突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:使用了LibriTTS和VCTK公开数据集,但论文中未提供具体的数据预处理脚本或说明。 Demo:论文中未提及。 复现材料:论文中提供了详细的训练硬件(单卡RTX 3090)、优化器参数、学习率调度、STFT参数、模型结构配置(层数、通道数、卷积核大小等),复现指导较为充分。 引用的开源项目:论文提到了FunCodec、FocalCodec、Hifi-codec等开源工具或相关工作,但未明确说明IBPCodec的代码是否基于或借鉴了这些项目。 📌 核心摘要 这篇论文针对当前神经语音编解码器计算复杂度过高、难以在边缘设备部署的问题,提出了一种名为IBPCodec的低比特率轻量级语音编解码器。其核心方法是优先对输入语音的低频部分(占比P=75%)进行编码和量化传输,在解码端利用一个轻量的带间预测模块(IBPM)从解码出的低频信息中预测高频成分,从而恢复完整语音。与先前直接丢弃高频或整体编码的方法相比,该创新点在于将频带优先传输与神经预测相结合。实验结果显示,在16 kHz采样率、1-3 kbps比特率下,IBPCodec的计算复杂度仅为0.35 GMACs(远低于DAC的55.66G和SpeechTokenizer的17.09G),其PESQ、SI-SDR等客观指标及MUSHRA主观评分均优于或持平FreqCodec、SpeechTokenizer等基线。该工作的实际意义在于为低功耗设备上的实时语音通信提供了一种高效的编解码方案。其主要局限性在于IBPM的预测能力有限,在更低频带占比(P=0.5)时性能下降,且模型在极低比特率下的绝对语音质量仍有提升空间。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 357 words

ICASSP 2026 - 语音合成 论文列表

ICASSP 2026 - 语音合成 共 63 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 T-Cache: Fast Inference For Masked Generative Transformer-Ba 9.0分 前25% 🥈 Wavenext 2: Convnext-Based Fast Neural Vocoders with Residua 9.0分 前25% 🥉 VoXtream: Full-Stream Text-To-Speech With Extremely Low Late 8.5分 前25% 4. EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion C 8.5分 前25% 5. No Verifiable Reward for Prosody: Toward Preference-Guided P 8.0分 前25% 6. Marco-Voice: A Unified Framework for Expressive Speech Synth 8.0分 前25% 7. Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamb 8.0分 前25% 8. Group Relative Policy Optimization for Text-to-Speech with L 8.0分 前25% 9. Do You Hear What I Mean? Quantifying the Instruction-Percept 8.0分 前25% 10. OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Spe 8.0分 前25% 11. HD-PPT: Hierarchical Decoding of Content- and Prompt-Prefere 8.0分 前25% 12. Emotion-Aligned Generation in Diffusion Text to Speech Model 8.0分 前25% 13. Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, 8.0分 前25% 14. DAIEN-TTS: Disentangled Audio Infilling for Environment-Awar 8.0分 前25% 15. BridgeCode: A Dual Speech Representation Paradigm for Autore 8.0分 前25% 16. Continuous-Token Diffusion for Speaker-Referenced TTS in Mul 8.0分 前10% 17. Prosody-Guided Harmonic Attention for Phase-Coherent Neural 8.0分 前25% 18. Optimizing Speech Language Models for Acoustic Consistency 8.0分 前25% 19. NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with N 8.0分 前25% 20. ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with S 8.0分 前25% 21. EMG-to-Speech with Fewer Channels 7.5分 前25% 22. VividTalker: A Modular Framework for Expressive 3D Talking A 7.5分 前25% 23. Real-Time Streaming MEL Vocoding with Generative Flow Matchi 7.5分 前25% 24. From Hallucination to Articulation: Language Model-Driven Lo 7.5分 前25% 25. SynParaSpeech: Automated Synthesis of Paralinguistic Dataset 7.5分 前25% 26. Asynchrony-Aware Decoupled Multimodal Control for Cued Speec 7.5分 前10% 27. DMP-TTS: Disentangled Multi-Modal Prompting for Controllable 7.5分 前25% 28. RRPO: Robust Reward Policy Optimization for LLM-Based Emotio 7.5分 前25% 29. Syncspeech: Efficient and Low-Latency Text-to-Speech Based o 7.5分 前25% 30. Principled Coarse-Grained Acceptance For Speculative Decodin 7.5分 前25% 31. SPADE: Structured Pruning and Adaptive Distillation for Effi 7.5分 前25% 32. Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Code 7.5分 前25% 33. Discrete Diffusion for Generative Modeling of Text-Aligned S 7.5分 前25% 34. Emotional Dimension Control in Language Model-Based Text-To- 7.5分 前25% 35. Beyond Global Emotion: Fine-Grained Emotional Speech Synthes 7.5分 前25% 36. QFOCUS: Controllable Synthesis for Automated Speech Stress E 7.5分 前50% 37. Synthetic yet Striking? Assessing Vocal Charisma in TTS via 7.5分 前25% 38. TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Fram 7.5分 前25% 39. Deep Dubbing: End-to-End Auto-Audiobook System with Text-to- 7.5分 前25% 40. Erasing Your Voice Before it’s Heard: Training-Free Speaker 7.5分 前25% 41. InstructAudio: Unified Speech and Music Generation with Natu 7.5分 前25% 42. GLA-GRAD++: An Improved Griffin-Lim Guided Diffusion Model f 7.5分 前25% 43. Int-MeanFlow: Few-Step Speech Generation with Integral Veloc 7.5分 前25% 44. Training Flow Matching Models with Reliable Labels via Self- 7.5分 前25% 45. Hierarchical Discrete Flow Matching For Multi-Codebook Codec 7.5分 前25% 46. Frame-Stacked Local Transformers for Efficient Multi-Codeboo 7.5分 前25% 47. Direct Preference Optimization For Speech Autoregressive Dif 7.5分 前25% 48. MirrorTalk: Forging Personalized Avatars Via Disentangled St 7.0分 前25% 49. Residual Tokens Enhance Masked Autoencoders for Speech Model 7.0分 前50% 50. SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word L 7.0分 前50% 51. SPAM: Style Prompt Adherence Metric for Prompt-Based TTS 7.0分 前50% 52. Gelina: Unified Speech and Gesture Synthesis Via Interleaved 7.0分 前50% 53. Retrieval-Based Speculative Decoding For Autoregressive Spee 7.0分 前50% 54. T-Mimi: A Transformer-Based Mimi Decoder for Real-Time On-Ph 7.0分 前50% 55. Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fi 7.0分 前25% 56. EmoShift: Lightweight Activation Steering for Enhanced Emoti 7.0分 前50% 57. Task Vector in TTS: Toward Emotionally Expressive Dialectal 7.0分 前50% 58. Quantifying Speaker Embedding Phonological Rule Interactions 7.0分 前25% 59. PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual 7.0分 前50% 60. LP-CFM: Perceptual Invariance-Aware Conditional Flow Matchin 7.0分 前25% 61. SFM-TTS: Lightweight and Rapid Speech Synthesis with Flexibl 7.0分 前25% 62. MELA-TTS: Joint Transformer-Diffusion Model with Representat 7.0分 前25% 63. Combining Multi-Order Attention and Multi-Resolution Discrim 6.5分 前50% 📋 论文详情 🥇 T-Cache: Fast Inference For Masked Generative Transformer-Based TTS Via Prompt-Aware Feature Caching 🔥 9.0/10 | 前25% | #语音合成 | #实时处理 | #零样本 #语音大模型 ...

2026-04-29 · 更新于 2026-05-20 · 37 min · 7808 words

InstructAudio: Unified Speech and Music Generation with Natural Language Instruction

📄 InstructAudio: Unified Speech and Music Generation with Natural Language Instruction #语音合成 #音乐生成 #扩散模型 #多任务学习 #统一音频模型 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #音乐生成 #多任务学习 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Chunyu Qiang(天津大学,快手科技) 通讯作者:Longbiao Wang(天津大学) 作者列表:Chunyu Qiang(天津大学,快手科技),Kang Yin(快手科技),Xiaopeng Wang(快手科技),Yuzhe Liang(快手科技),Jiahui Zhao(天津大学),Ruibo Fu(中国科学院自动化研究所),Tianrui Wang(天津大学),Cheng Gong(天津大学),Chen Zhang(快手科技),Longbiao Wang†(天津大学),Jianwu Dang(天津大学) 💡 毒舌点评 这篇论文的最大亮点在于其“野心”——试图用一个统一的框架和自然语言指令,同时搞定语音合成(TTS)和音乐生成(TTM)这两个本就差异显著的任务,这在思路上确实领先。但短板也很明显:论文在展示音乐生成对比结果时,坦诚其5-20秒的生成长度可能对长时序模型不公平,这种实验设计的局限性削弱了结论的说服力;更关键的是,论文几乎未提供任何可复现的开源信息,这对于一个宣称“统一框架”的工作而言,是个不小的遗憾。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文中未提及公开的模型权重下载地址。 数据集:论文中使用了自收集的50K小时语音和20K小时音乐数据,但未提及是否会公开数据集或获取方式。 Demo:提供了在线音频示例演示页面:https://qiangchunyu.github.io/InstructAudio/ 复现材料:论文给出了模型参数量(1.34B)、主要架构层数、优化器、初始学习率和GPU数量,但缺少学习率调度策略、训练步数/轮数、梯度裁剪等关键训练细节,复现材料不充分。 论文中引用的开源项目:引用了多个开源模型(如CosyVoice2, ACE-Step, DiffRhythm+)和工具(如Resemblyzer, emotion2vec, Qwen2.5),但未提及是否在代码或模型中集成了其他特定开源项目。 总结:论文中未提及开源计划(如代码、模型、数据的开源时间表)。 📌 核心摘要 问题:现有的文本转语音(TTS)和文本转音乐(TTM)系统在基于指令(自然语言描述)的控制方面存在显著局限。TTS模型通常依赖参考音频控制音色,属性控制能力有限;TTM模型则依赖专业标注,且两类任务长期独立开发,难以统一建模。 方法核心:提出InstructAudio,一个基于多模态扩散Transformer(MM-DiT)和条件流匹配的统一框架。它采用标准化的“指令-音素”输入格式,通过联合和单一扩散Transformer层,处理无噪的梅尔VAE潜在表示,从而在统一模型中实现语音和音乐的生成与控制。 新意:这是首个通过自然语言指令统一控制语音和音乐生成的框架。它消除了对参考音频的依赖,能通过文本指令控制音色(性别、年龄)、副语言(情感、风格、口音)和音乐(类型、乐器、节奏、氛围)等多种属性,并支持双说话人对话生成。 主要实验结果: TTS任务:在Seed-TTS基准的WER指标上,InstructAudio在可控条件下达到了最佳的英文(1.52%)和中文(1.35%)错误率(见表1)。在指令控制任务上,其分类控制准确率(如性别100%、年龄86.67%、对话90%)和说话人/情感相似度均优于强基线CosyVoice2,且在LSD、MCD等失真指标上更优(见表2)。 TTM任务:在SongEval音乐评估基准的所有指标(连贯性、音乐性等)上均取得最佳分数。在分类控制准确率上,于歌手性别(98.89%)、年龄(97.22%)和氛围(95.00%)控制上表现突出(见表3)。 综合对比:论文通过图1可视化比较,声称在多项指标上实现了TTS和TTM能力的全面领先。 实际意义:为内容创作(如生成带有特定情感和风格的旁白或背景音乐)、交互式媒体、娱乐等领域提供了一种更通用、交互更自然的音频内容生成工具,降低了专业音频制作的门槛。 主要局限性:1) 统一输入格式(纯文本指令)导致了“一对多”的映射歧义,可能牺牲了生成音频的自然度和质量(NMOS分数低于使用参考音频的基线);2) 为了联合建模,将音乐生成长度限制在5-20秒,限制了其在长时音乐生成场景的应用,并且对基线模型的评估可能不公平;3) 论文未提供开源代码、模型或数据,可复现性低。 InstructAudio整体架构示意图(图2)。 ...

2026-04-29 · 更新于 2026-05-20 · 4 min · 791 words

Int-MeanFlow: Few-Step Speech Generation with Integral Velocity Distillation

📄 Int-MeanFlow: Few-Step Speech Generation with Integral Velocity Distillation #语音合成 #流匹配 #知识蒸馏 #流式处理 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #知识蒸馏 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序标注,首位作者为Wei Wang) 通讯作者:未说明 作者列表:Wei Wang(字节跳动 ByteDance),Rong Cao(字节跳动 ByteDance),Yi Guo(字节跳动 ByteDance),Zhengyang Chen(字节跳动 ByteDance),Kuan Chen(字节跳动 ByteDance),Yuanyuan Huo(字节跳动 ByteDance) 💡 毒舌点评 亮点:精准地找到了MeanFlow在TTS落地的两大“卡脖子”问题(JVP内存爆炸、自举不稳定),并给出了一个工程上非常友好的“绕道”方案(用离散积分近似、去掉JVP),效果立竿见影。短板:提出的方法本质上是对教师模型推理路径的“离线”蒸馏和近似,其泛化性和在更复杂生成任务上的极限性能仍待观察,实验也仅限于两个特定模型架构。 🔗 开源详情 代码:论文中未提及官方代码仓库链接。 模型权重:未提及是否公开预训练或蒸馏后的模型权重。 数据集:实验使用了公开的LibriTTS和Emilia数据集,但预处理细节未说明。 Demo:提供了在线演示页面:https://vvwangvv.github.io/intmeanflow/。 复现材料:论文中未提供详细的超参数配置、训练脚本、检查点等复现材料。 论文中引用的开源项目: F5-TTS:作为text2mel任务的基础模型(引用[3])。 CosyVoice:作为token2mel任务的基础模型(引用[1])。 Whisper-large-v3:用于英语WER计算。 Paraformer-zh:用于中文WER计算。 WavLM:用于说话人嵌入提取,计算SIM-o。 论文中未提及开源计划:除Demo链接外,论文正文未明确承诺未来将开源代码或模型。 📌 核心摘要 问题:基于流匹配的语音合成模型(Flow-based TTS)生成质量高,但推理速度因迭代采样(多次函数评估,NFE)而受限。近期的MeanFlow模型通过建模平均速度来加速生成,但将其直接应用于TTS面临两个挑战:训练时计算Jacobian-vector product(JVP)带来巨大的GPU内存开销,且依赖自举(self-bootstrap)过程导致训练不稳定。 方法核心:提出IntMeanFlow框架,通过“积分速度蒸馏”让学生模型学习平均速度。其核心是用教师模型在时间区间[t, r]上的离散迭代步进所积累的总位移,来近似积分速度(平均速度),作为训练目标。这完全避免了JVP计算和训练中的自举过程。同时,提出最优步骤搜索(OS3)算法,通过三分搜索自动优化模型的采样步长分布。 新意:与直接应用MeanFlow相比,IntMeanFlow用离散积分近似替代了连续JVP计算,去除了自举依赖,显著提升了训练稳定性和内存效率。与传统蒸馏方法相比,它不需要辅助模型或固定训练步长,且与现有流匹配模型兼容性更好。 主要实验结果:在F5-TTS(text2mel任务)上,IntMeanFlow将推理步数从32步减少至3步,实时因子(RTF)从0.243降至0.021(约11.6倍加速),同时WER和SIM-o指标仅有轻微下降(例如,Base模型WER从1.87%升至1.60%,SIM-o从0.67降至0.65)。在CosyVoice2(token2mel任务)上,实现了1步推理,RTF从0.510降至0.026(约19.6倍加速),性能与教师模型接近。OS3算法在多个设置下带来了显著的指标提升。 实际意义:为高保真流匹配语音合成模型提供了一种高效、稳定的少步推理方案,将推理速度提升一个数量级,使其更适用于实时和流式应用场景。 主要局限性:方法的有效性可能依赖于教师模型的质量和离散积分的精度(受步数n影响)。论文中未探讨该方法在更复杂任务(如语音转换、零样本克隆)上的泛化性,也未公开代码和详细训练配置,限制了可复现性。 🏗️ 模型架构 IntMeanFlow本身是一个蒸馏框架,而非一个独立的端到端模型。其核心是训练一个学生模型 u_student(zt, t, r; θ_student),使其能够预测从时间点 t 到 r 的平均速度。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 487 words

Learning Vocal-Tract Area And Radiation With A Physics-Informed Webster Model

📄 Learning Vocal-Tract Area And Radiation With A Physics-Informed Webster Model #歌唱语音合成 #物理信息神经网络 #信号处理 #语音合成 ✅ 7.0/10 | 前50% | #歌唱语音合成 | #信号处理 | #物理信息神经网络 #语音合成 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Minhui Lu(Queen Mary University of London, Centre for Digital Music) 通讯作者:未说明(论文中未明确标注通讯作者,但根据常见惯例,第一作者或最后作者可能是。此处严格按论文内容判断,未明确提及。) 作者列表:Minhui Lu(Queen Mary University of London, Centre for Digital Music)、Joshua D. Reiss(Queen Mary University of London, Centre for Digital Music) 💡 毒舌点评 亮点:论文将经典的Webster声学方程与物理信息神经网络(PINN)结合,不仅学习了声道面积函数,还创新性地引入了可学习的端口辐射边界条件,为语音合成提供了高度可解释的物理控制参数。短板:然而,整个实验建立在合成的、高度理想化的稳态元音数据上,缺乏对真实歌唱语音的验证;其宣称的“物理可解释性”参数(如辐射系数ζ)在实际复杂声源和噪声环境下的鲁棒性与可区分性存疑。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 415 words

Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer's Disease Detection from Spontaneous Speech

📄 Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer’s Disease Detection from Spontaneous Speech #语音生物标志物 #数据增强 #语音合成 #语音转换 #语音识别 ✅ 7.0/10 | 前50% | #语音生物标志物 | #数据增强 | #语音合成 #语音转换 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Sina Rashidi(哥伦比亚大学欧文医学中心) 通讯作者:未说明 作者列表:Sina Rashidi(哥伦比亚大学欧文医学中心),Yasaman Haghbin(哥伦比亚大学欧文医学中心),Hossein Azadmaleki(哥伦比亚大学欧文医学中心),Ali Zolnour(哥伦比亚大学欧文医学中心),Maryam Zolnoori(哥伦比亚大学欧文医学中心) 💡 毒舌点评 论文的亮点在于直击临床语音数据稀缺的痛点,巧妙地将大语言模型生成诊断特定文本与语音合成/转换相结合,构成了一套针对ADRD检测的端到端增强框架,并在实验中展示了显著的性能提升。然而,其短板在于作为一篇方法论论文,对生成数据可能引入的分布偏移、领域外泛化性,以及临床部署中至关重要的伦理与隐私风险讨论不足,且关键的复现细节(如完整训练脚本、生成样本的定性评估)缺失,使其更多像一个成功的系统集成案例,而非深入的方法学探索。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用的是公开���DementiaBank Pitt Corpus和ADReSSo 2021测试集。 Demo:未提供在线演示。 复现材料:论文描述了方法框架和部分参数(如SpecAugment设置、特征选择),但缺乏完整的训练脚本、配置文件和超参数搜索细节。 论文中引用的开源项目:提到了以下开源工具/模型:WhisperX, LLaMA-3.1-405B (用于说话人分离), mGTE, mHuBERT, Whisper, LLaMA-3.1-8B-Instruct, medGemma-27B-it, SparkTTS-0.5B, OpenVoice。 📌 核心摘要 问题:基于语音的阿尔茨海默病及相关痴呆(ADRD)检测受限于高质量患者语音数据的稀缺,这限制了深度学习模型(尤其是Transformer)的性能。 方法核心:提出两种生成式语音数据增强管道:(1) TTS管道:先微调LLM(如LLaMA-3.1-8B、medGemma-27B)生成诊断特定的合成文本,再通过零样本TTS(SparkTTS)生成语音;(2) 语音转换(VC)管道:通过基于声学特征的图论配对,使用OpenVoice在说话人之间转换语音,以增加声学多样性同时保留语言内容。 新在哪里:相比传统的SpecAugment等信号域扰动方法,生成式方法能提供更丰富的、具有临床相关性的语言与声学变异性。TTS管道创新性地引入了LLM生成诊断特定文本来驱动语音合成。 主要实验结果:在DementiaBank Pitt Corpus训练,ADReSSo 2021测试集上评估。TTS管道在纯声学模型(SpeechCARE-Whisper)上取得最佳性能,Micro-F1从80.2%提升至90.1%,F1-ADRD从82.9%提升至90.4%。多模态模型(SpeechCARE-AGF)在TTS+VC组合下取得最佳性能(Micro-F1 84.5%)。关键对比如下表: 模型 方法 Micro-F1 (%) F1-ADRD (%) SpeechCARE-AGF 基线 77.4 75.0 TTS管道 78.8 76.1 VC管道 78.8 76.9 TTS+VC 84.5 84.5 SpeechCARE-Whisper 基线 80.2 82.9 频率掩蔽 85.9 87.1 时间掩蔽 87.3 88.3 时间偏移 85.9 87.1 TTS管道 90.1 90.4 VC管道 90.1 90.1 TTS+VC 90.1 90.1 实际意义:为构建可扩展、非侵入性的ADRD语音筛查工具提供了数据层面的解决方案,有助于缓解临床数据收集的困难。 主要局限性:生成语音的质量和保真度未进行详细评估;方法高度依赖于生成模型(LLM, TTS)的质量和可用性;未探讨模型在不同口音、语言及更多样化人群上的泛化能力;伦理考量(如使用合成医疗数据)讨论有限。 🏗️ 模型架构 论文主要描述了两个用于ADRD检测的下游分类模型架构,以及用于数据增强的生成管道。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 307 words

LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling

📄 LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling #语音合成 #流匹配 #低资源 #鲁棒性 #数据增强 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #低资源 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Doyeop Kwak(韩国科学技术院,KAIST) 通讯作者:未说明 作者列表:Doyeop Kwak(韩国科学技术院),Youngjoon Jang(韩国科学技术院),Joon Son Chung(韩国科学技术院) 💡 毒舌点评 亮点在于将“感知等价类”这一人类听觉特性形式化为流匹配中的线性投影目标,理论动机清晰且与低资源/少步场景的收益形成合理关联;但短板是实验“安全区”选择得过于小心,在单一的、高度控制的声码器任务上验证,未能展示该方法在更复杂的端到端TTS或语音转换等主流任务中的通用性和竞争力。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:使用了公开的LJ Speech数据集。 Demo:未提及。 复现材料:论文中给出了相对详细的训练超参数、数据划分、硬件信息和评估指标,但未提供预训练模型、完整配置文件或复现脚本。 论文中引用的开源项目:引用了HiFi-GAN(作为对比基线或参考),以及HuggingFace Diffusers库中的UNet2D模型作为解码器骨干。 📌 核心摘要 问题:传统的条件流匹配(CFM)将数据集中每个样本视为目标分布的唯一代表,忽略了人类听觉对幅度缩放和小时间偏移等感知不变性的容忍,导致模型需强制收敛到一个任意实例,可能造成数据与容量的浪费。 核心方法:提出LP-CFM(线性投影条件流匹配),将建模目标从围绕单个数据点的各向同性高斯分布,改为沿感知等效变体(如不同响度或对齐的波形)构成的直线分布的细长高斯。同时引入向量校准采样(VCS)在推理时纠正预测向量,确保其与投影路径对齐。 新意:相比标准OT-CFM,LP-CFM显式地将感知不变性编码到生成模型的目标分布中,使模型学习流向等效集中最近点的路径,而非固定点,从而理论上缩短和稳定了传输路径。 主要实验结果:在神经声码器任务上,LP-CFM在所有评估指标(M-STFT, PESQ, MCD等)上均一致优于OT-CFM。优势在小模型(UNet-16上UTMOS提升0.14)、低数据(使用66%数据训练的LP-CFM在多数指标上优于使用100%数据的OT-CFM)和少步采样(3步时UTMOS优势最明显)场景下尤为显著。消融实验表明,LP-CFM应用于幅度谱贡献了主要性能提升,VCS起到了预期的安全保障作用。 实际意义:为生成式语音建模提供了更符合人类感知的新视角,可能在资源受限的边缘设备部署、快速合成等实际应用中带来收益。 局限性:验证场景相对单一且受控;方法的有效性依赖于能将不变性表达为线性方程,对于更复杂的变换或端到端模型中的隐变量是否普适未知。 🏗️ 模型架构 论文未提供其模型架构的专属图片。其神经声码器架构基于一个简化的设计用于控制实验变量,流程如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 313 words

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序注明第一作者) 通讯作者:Chenyang Lyu(标注为) 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业) 💡 毒舌点评 亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 348 words