ICASSP 2026 - 语音合成 论文列表

ICASSP 2026 - 语音合成 共 63 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 T-Cache: Fast Inference For Masked Generative Transformer-Ba 9.0分 前25% 🥈 Wavenext 2: Convnext-Based Fast Neural Vocoders with Residua 9.0分 前25% 🥉 VoXtream: Full-Stream Text-To-Speech With Extremely Low Late 8.5分 前25% 4. EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion C 8.5分 前25% 5. No Verifiable Reward for Prosody: Toward Preference-Guided P 8.0分 前25% 6. Marco-Voice: A Unified Framework for Expressive Speech Synth 8.0分 前25% 7. Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamb 8.0分 前25% 8. Group Relative Policy Optimization for Text-to-Speech with L 8.0分 前25% 9. Do You Hear What I Mean? Quantifying the Instruction-Percept 8.0分 前25% 10. OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Spe 8.0分 前25% 11. HD-PPT: Hierarchical Decoding of Content- and Prompt-Prefere 8.0分 前25% 12. Emotion-Aligned Generation in Diffusion Text to Speech Model 8.0分 前25% 13. Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, 8.0分 前25% 14. DAIEN-TTS: Disentangled Audio Infilling for Environment-Awar 8.0分 前25% 15. BridgeCode: A Dual Speech Representation Paradigm for Autore 8.0分 前25% 16. Continuous-Token Diffusion for Speaker-Referenced TTS in Mul 8.0分 前10% 17. Prosody-Guided Harmonic Attention for Phase-Coherent Neural 8.0分 前25% 18. Optimizing Speech Language Models for Acoustic Consistency 8.0分 前25% 19. NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with N 8.0分 前25% 20. ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with S 8.0分 前25% 21. EMG-to-Speech with Fewer Channels 7.5分 前25% 22. VividTalker: A Modular Framework for Expressive 3D Talking A 7.5分 前25% 23. Real-Time Streaming MEL Vocoding with Generative Flow Matchi 7.5分 前25% 24. From Hallucination to Articulation: Language Model-Driven Lo 7.5分 前25% 25. SynParaSpeech: Automated Synthesis of Paralinguistic Dataset 7.5分 前25% 26. Asynchrony-Aware Decoupled Multimodal Control for Cued Speec 7.5分 前10% 27. DMP-TTS: Disentangled Multi-Modal Prompting for Controllable 7.5分 前25% 28. RRPO: Robust Reward Policy Optimization for LLM-Based Emotio 7.5分 前25% 29. Syncspeech: Efficient and Low-Latency Text-to-Speech Based o 7.5分 前25% 30. Principled Coarse-Grained Acceptance For Speculative Decodin 7.5分 前25% 31. SPADE: Structured Pruning and Adaptive Distillation for Effi 7.5分 前25% 32. Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Code 7.5分 前25% 33. Discrete Diffusion for Generative Modeling of Text-Aligned S 7.5分 前25% 34. Emotional Dimension Control in Language Model-Based Text-To- 7.5分 前25% 35. Beyond Global Emotion: Fine-Grained Emotional Speech Synthes 7.5分 前25% 36. QFOCUS: Controllable Synthesis for Automated Speech Stress E 7.5分 前50% 37. Synthetic yet Striking? Assessing Vocal Charisma in TTS via 7.5分 前25% 38. TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Fram 7.5分 前25% 39. Deep Dubbing: End-to-End Auto-Audiobook System with Text-to- 7.5分 前25% 40. Erasing Your Voice Before it’s Heard: Training-Free Speaker 7.5分 前25% 41. InstructAudio: Unified Speech and Music Generation with Natu 7.5分 前25% 42. GLA-GRAD++: An Improved Griffin-Lim Guided Diffusion Model f 7.5分 前25% 43. Int-MeanFlow: Few-Step Speech Generation with Integral Veloc 7.5分 前25% 44. Training Flow Matching Models with Reliable Labels via Self- 7.5分 前25% 45. Hierarchical Discrete Flow Matching For Multi-Codebook Codec 7.5分 前25% 46. Frame-Stacked Local Transformers for Efficient Multi-Codeboo 7.5分 前25% 47. Direct Preference Optimization For Speech Autoregressive Dif 7.5分 前25% 48. MirrorTalk: Forging Personalized Avatars Via Disentangled St 7.0分 前25% 49. Residual Tokens Enhance Masked Autoencoders for Speech Model 7.0分 前50% 50. SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word L 7.0分 前50% 51. SPAM: Style Prompt Adherence Metric for Prompt-Based TTS 7.0分 前50% 52. Gelina: Unified Speech and Gesture Synthesis Via Interleaved 7.0分 前50% 53. Retrieval-Based Speculative Decoding For Autoregressive Spee 7.0分 前50% 54. T-Mimi: A Transformer-Based Mimi Decoder for Real-Time On-Ph 7.0分 前50% 55. Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fi 7.0分 前25% 56. EmoShift: Lightweight Activation Steering for Enhanced Emoti 7.0分 前50% 57. Task Vector in TTS: Toward Emotionally Expressive Dialectal 7.0分 前50% 58. Quantifying Speaker Embedding Phonological Rule Interactions 7.0分 前25% 59. PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual 7.0分 前50% 60. LP-CFM: Perceptual Invariance-Aware Conditional Flow Matchin 7.0分 前25% 61. SFM-TTS: Lightweight and Rapid Speech Synthesis with Flexibl 7.0分 前25% 62. MELA-TTS: Joint Transformer-Diffusion Model with Representat 7.0分 前25% 63. Combining Multi-Order Attention and Multi-Resolution Discrim 6.5分 前50% 📋 论文详情 🥇 T-Cache: Fast Inference For Masked Generative Transformer-Based TTS Via Prompt-Aware Feature Caching 🔥 9.0/10 | 前25% | #语音合成 | #实时处理 | #零样本 #语音大模型 ...

2026-04-29 · 更新于 2026-06-15 · 37 min · 7808 words

InstructAudio: Unified Speech and Music Generation with Natural Language Instruction

📄 InstructAudio: Unified Speech and Music Generation with Natural Language Instruction #语音合成 #音乐生成 #扩散模型 #多任务学习 #统一音频模型 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #音乐生成 #多任务学习 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Chunyu Qiang(天津大学,快手科技) 通讯作者:Longbiao Wang(天津大学) 作者列表:Chunyu Qiang(天津大学,快手科技),Kang Yin(快手科技),Xiaopeng Wang(快手科技),Yuzhe Liang(快手科技),Jiahui Zhao(天津大学),Ruibo Fu(中国科学院自动化研究所),Tianrui Wang(天津大学),Cheng Gong(天津大学),Chen Zhang(快手科技),Longbiao Wang†(天津大学),Jianwu Dang(天津大学) 💡 毒舌点评 这篇论文的最大亮点在于其“野心”——试图用一个统一的框架和自然语言指令,同时搞定语音合成(TTS)和音乐生成(TTM)这两个本就差异显著的任务,这在思路上确实领先。但短板也很明显:论文在展示音乐生成对比结果时,坦诚其5-20秒的生成长度可能对长时序模型不公平,这种实验设计的局限性削弱了结论的说服力;更关键的是,论文几乎未提供任何可复现的开源信息,这对于一个宣称“统一框架”的工作而言,是个不小的遗憾。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文中未提及公开的模型权重下载地址。 数据集:论文中使用了自收集的50K小时语音和20K小时音乐数据,但未提及是否会公开数据集或获取方式。 Demo:提供了在线音频示例演示页面:https://qiangchunyu.github.io/InstructAudio/ 复现材料:论文给出了模型参数量(1.34B)、主要架构层数、优化器、初始学习率和GPU数量,但缺少学习率调度策略、训练步数/轮数、梯度裁剪等关键训练细节,复现材料不充分。 论文中引用的开源项目:引用了多个开源模型(如CosyVoice2, ACE-Step, DiffRhythm+)和工具(如Resemblyzer, emotion2vec, Qwen2.5),但未提及是否在代码或模型中集成了其他特定开源项目。 总结:论文中未提及开源计划(如代码、模型、数据的开源时间表)。 📌 核心摘要 问题:现有的文本转语音(TTS)和文本转音乐(TTM)系统在基于指令(自然语言描述)的控制方面存在显著局限。TTS模型通常依赖参考音频控制音色,属性控制能力有限;TTM模型则依赖专业标注,且两类任务长期独立开发,难以统一建模。 方法核心:提出InstructAudio,一个基于多模态扩散Transformer(MM-DiT)和条件流匹配的统一框架。它采用标准化的“指令-音素”输入格式,通过联合和单一扩散Transformer层,处理无噪的梅尔VAE潜在表示,从而在统一模型中实现语音和音乐的生成与控制。 新意:这是首个通过自然语言指令统一控制语音和音乐生成的框架。它消除了对参考音频的依赖,能通过文本指令控制音色(性别、年龄)、副语言(情感、风格、口音)和音乐(类型、乐器、节奏、氛围)等多种属性,并支持双说话人对话生成。 主要实验结果: TTS任务:在Seed-TTS基准的WER指标上,InstructAudio在可控条件下达到了最佳的英文(1.52%)和中文(1.35%)错误率(见表1)。在指令控制任务上,其分类控制准确率(如性别100%、年龄86.67%、对话90%)和说话人/情感相似度均优于强基线CosyVoice2,且在LSD、MCD等失真指标上更优(见表2)。 TTM任务:在SongEval音乐评估基准的所有指标(连贯性、音乐性等)上均取得最佳分数。在分类控制准确率上,于歌手性别(98.89%)、年龄(97.22%)和氛围(95.00%)控制上表现突出(见表3)。 综合对比:论文通过图1可视化比较,声称在多项指标上实现了TTS和TTM能力的全面领先。 实际意义:为内容创作(如生成带有特定情感和风格的旁白或背景音乐)、交互式媒体、娱乐等领域提供了一种更通用、交互更自然的音频内容生成工具,降低了专业音频制作的门槛。 主要局限性:1) 统一输入格式(纯文本指令)导致了“一对多”的映射歧义,可能牺牲了生成音频的自然度和质量(NMOS分数低于使用参考音频的基线);2) 为了联合建模,将音乐生成长度限制在5-20秒,限制了其在长时音乐生成场景的应用,并且对基线模型的评估可能不公平;3) 论文未提供开源代码、模型或数据,可复现性低。 InstructAudio整体架构示意图(图2)。 ...

2026-04-29 · 更新于 2026-06-15 · 4 min · 791 words

Int-MeanFlow: Few-Step Speech Generation with Integral Velocity Distillation

📄 Int-MeanFlow: Few-Step Speech Generation with Integral Velocity Distillation #语音合成 #流匹配 #知识蒸馏 #流式处理 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #知识蒸馏 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序标注,首位作者为Wei Wang) 通讯作者:未说明 作者列表:Wei Wang(字节跳动 ByteDance),Rong Cao(字节跳动 ByteDance),Yi Guo(字节跳动 ByteDance),Zhengyang Chen(字节跳动 ByteDance),Kuan Chen(字节跳动 ByteDance),Yuanyuan Huo(字节跳动 ByteDance) 💡 毒舌点评 亮点:精准地找到了MeanFlow在TTS落地的两大“卡脖子”问题(JVP内存爆炸、自举不稳定),并给出了一个工程上非常友好的“绕道”方案(用离散积分近似、去掉JVP),效果立竿见影。短板:提出的方法本质上是对教师模型推理路径的“离线”蒸馏和近似,其泛化性和在更复杂生成任务上的极限性能仍待观察,实验也仅限于两个特定模型架构。 🔗 开源详情 代码:论文中未提及官方代码仓库链接。 模型权重:未提及是否公开预训练或蒸馏后的模型权重。 数据集:实验使用了公开的LibriTTS和Emilia数据集,但预处理细节未说明。 Demo:提供了在线演示页面:https://vvwangvv.github.io/intmeanflow/。 复现材料:论文中未提供详细的超参数配置、训练脚本、检查点等复现材料。 论文中引用的开源项目: F5-TTS:作为text2mel任务的基础模型(引用[3])。 CosyVoice:作为token2mel任务的基础模型(引用[1])。 Whisper-large-v3:用于英语WER计算。 Paraformer-zh:用于中文WER计算。 WavLM:用于说话人嵌入提取,计算SIM-o。 论文中未提及开源计划:除Demo链接外,论文正文未明确承诺未来将开源代码或模型。 📌 核心摘要 问题:基于流匹配的语音合成模型(Flow-based TTS)生成质量高,但推理速度因迭代采样(多次函数评估,NFE)而受限。近期的MeanFlow模型通过建模平均速度来加速生成,但将其直接应用于TTS面临两个挑战:训练时计算Jacobian-vector product(JVP)带来巨大的GPU内存开销,且依赖自举(self-bootstrap)过程导致训练不稳定。 方法核心:提出IntMeanFlow框架,通过“积分速度蒸馏”让学生模型学习平均速度。其核心是用教师模型在时间区间[t, r]上的离散迭代步进所积累的总位移,来近似积分速度(平均速度),作为训练目标。这完全避免了JVP计算和训练中的自举过程。同时,提出最优步骤搜索(OS3)算法,通过三分搜索自动优化模型的采样步长分布。 新意:与直接应用MeanFlow相比,IntMeanFlow用离散积分近似替代了连续JVP计算,去除了自举依赖,显著提升了训练稳定性和内存效率。与传统蒸馏方法相比,它不需要辅助模型或固定训练步长,且与现有流匹配模型兼容性更好。 主要实验结果:在F5-TTS(text2mel任务)上,IntMeanFlow将推理步数从32步减少至3步,实时因子(RTF)从0.243降至0.021(约11.6倍加速),同时WER和SIM-o指标仅有轻微下降(例如,Base模型WER从1.87%升至1.60%,SIM-o从0.67降至0.65)。在CosyVoice2(token2mel任务)上,实现了1步推理,RTF从0.510降至0.026(约19.6倍加速),性能与教师模型接近。OS3算法在多个设置下带来了显著的指标提升。 实际意义:为高保真流匹配语音合成模型提供了一种高效、稳定的少步推理方案,将推理速度提升一个数量级,使其更适用于实时和流式应用场景。 主要局限性:方法的有效性可能依赖于教师模型的质量和离散积分的精度(受步数n影响)。论文中未探讨该方法在更复杂任务(如语音转换、零样本克隆)上的泛化性,也未公开代码和详细训练配置,限制了可复现性。 🏗️ 模型架构 IntMeanFlow本身是一个蒸馏框架,而非一个独立的端到端模型。其核心是训练一个学生模型 u_student(zt, t, r; θ_student),使其能够预测从时间点 t 到 r 的平均速度。 ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 487 words

Learning Vocal-Tract Area And Radiation With A Physics-Informed Webster Model

📄 Learning Vocal-Tract Area And Radiation With A Physics-Informed Webster Model #歌唱语音合成 #物理信息神经网络 #信号处理 #语音合成 ✅ 7.0/10 | 前50% | #歌唱语音合成 | #信号处理 | #物理信息神经网络 #语音合成 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Minhui Lu(Queen Mary University of London, Centre for Digital Music) 通讯作者:未说明(论文中未明确标注通讯作者,但根据常见惯例,第一作者或最后作者可能是。此处严格按论文内容判断,未明确提及。) 作者列表:Minhui Lu(Queen Mary University of London, Centre for Digital Music)、Joshua D. Reiss(Queen Mary University of London, Centre for Digital Music) 💡 毒舌点评 亮点:论文将经典的Webster声学方程与物理信息神经网络(PINN)结合,不仅学习了声道面积函数,还创新性地引入了可学习的端口辐射边界条件,为语音合成提供了高度可解释的物理控制参数。短板:然而,整个实验建立在合成的、高度理想化的稳态元音数据上,缺乏对真实歌唱语音的验证;其宣称的“物理可解释性”参数(如辐射系数ζ)在实际复杂声源和噪声环境下的鲁棒性与可区分性存疑。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 415 words

Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer's Disease Detection from Spontaneous Speech

📄 Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer’s Disease Detection from Spontaneous Speech #语音生物标志物 #数据增强 #语音合成 #语音转换 #语音识别 ✅ 7.0/10 | 前50% | #语音生物标志物 | #数据增强 | #语音合成 #语音转换 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Sina Rashidi(哥伦比亚大学欧文医学中心) 通讯作者:未说明 作者列表:Sina Rashidi(哥伦比亚大学欧文医学中心),Yasaman Haghbin(哥伦比亚大学欧文医学中心),Hossein Azadmaleki(哥伦比亚大学欧文医学中心),Ali Zolnour(哥伦比亚大学欧文医学中心),Maryam Zolnoori(哥伦比亚大学欧文医学中心) 💡 毒舌点评 论文的亮点在于直击临床语音数据稀缺的痛点,巧妙地将大语言模型生成诊断特定文本与语音合成/转换相结合,构成了一套针对ADRD检测的端到端增强框架,并在实验中展示了显著的性能提升。然而,其短板在于作为一篇方法论论文,对生成数据可能引入的分布偏移、领域外泛化性,以及临床部署中至关重要的伦理与隐私风险讨论不足,且关键的复现细节(如完整训练脚本、生成样本的定性评估)缺失,使其更多像一个成功的系统集成案例,而非深入的方法学探索。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用的是公开���DementiaBank Pitt Corpus和ADReSSo 2021测试集。 Demo:未提供在线演示。 复现材料:论文描述了方法框架和部分参数(如SpecAugment设置、特征选择),但缺乏完整的训练脚本、配置文件和超参数搜索细节。 论文中引用的开源项目:提到了以下开源工具/模型:WhisperX, LLaMA-3.1-405B (用于说话人分离), mGTE, mHuBERT, Whisper, LLaMA-3.1-8B-Instruct, medGemma-27B-it, SparkTTS-0.5B, OpenVoice。 📌 核心摘要 问题:基于语音的阿尔茨海默病及相关痴呆(ADRD)检测受限于高质量患者语音数据的稀缺,这限制了深度学习模型(尤其是Transformer)的性能。 方法核心:提出两种生成式语音数据增强管道:(1) TTS管道:先微调LLM(如LLaMA-3.1-8B、medGemma-27B)生成诊断特定的合成文本,再通过零样本TTS(SparkTTS)生成语音;(2) 语音转换(VC)管道:通过基于声学特征的图论配对,使用OpenVoice在说话人之间转换语音,以增加声学多样性同时保留语言内容。 新在哪里:相比传统的SpecAugment等信号域扰动方法,生成式方法能提供更丰富的、具有临床相关性的语言与声学变异性。TTS管道创新性地引入了LLM生成诊断特定文本来驱动语音合成。 主要实验结果:在DementiaBank Pitt Corpus训练,ADReSSo 2021测试集上评估。TTS管道在纯声学模型(SpeechCARE-Whisper)上取得最佳性能,Micro-F1从80.2%提升至90.1%,F1-ADRD从82.9%提升至90.4%。多模态模型(SpeechCARE-AGF)在TTS+VC组合下取得最佳性能(Micro-F1 84.5%)。关键对比如下表: 模型 方法 Micro-F1 (%) F1-ADRD (%) SpeechCARE-AGF 基线 77.4 75.0 TTS管道 78.8 76.1 VC管道 78.8 76.9 TTS+VC 84.5 84.5 SpeechCARE-Whisper 基线 80.2 82.9 频率掩蔽 85.9 87.1 时间掩蔽 87.3 88.3 时间偏移 85.9 87.1 TTS管道 90.1 90.4 VC管道 90.1 90.1 TTS+VC 90.1 90.1 实际意义:为构建可扩展、非侵入性的ADRD语音筛查工具提供了数据层面的解决方案,有助于缓解临床数据收集的困难。 主要局限性:生成语音的质量和保真度未进行详细评估;方法高度依赖于生成模型(LLM, TTS)的质量和可用性;未探讨模型在不同口音、语言及更多样化人群上的泛化能力;伦理考量(如使用合成医疗数据)讨论有限。 🏗️ 模型架构 论文主要描述了两个用于ADRD检测的下游分类模型架构,以及用于数据增强的生成管道。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 307 words

LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling

📄 LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling #语音合成 #流匹配 #低资源 #鲁棒性 #数据增强 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #低资源 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Doyeop Kwak(韩国科学技术院,KAIST) 通讯作者:未说明 作者列表:Doyeop Kwak(韩国科学技术院),Youngjoon Jang(韩国科学技术院),Joon Son Chung(韩国科学技术院) 💡 毒舌点评 亮点在于将“感知等价类”这一人类听觉特性形式化为流匹配中的线性投影目标,理论动机清晰且与低资源/少步场景的收益形成合理关联;但短板是实验“安全区”选择得过于小心,在单一的、高度控制的声码器任务上验证,未能展示该方法在更复杂的端到端TTS或语音转换等主流任务中的通用性和竞争力。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:使用了公开的LJ Speech数据集。 Demo:未提及。 复现材料:论文中给出了相对详细的训练超参数、数据划分、硬件信息和评估指标,但未提供预训练模型、完整配置文件或复现脚本。 论文中引用的开源项目:引用了HiFi-GAN(作为对比基线或参考),以及HuggingFace Diffusers库中的UNet2D模型作为解码器骨干。 📌 核心摘要 问题:传统的条件流匹配(CFM)将数据集中每个样本视为目标分布的唯一代表,忽略了人类听觉对幅度缩放和小时间偏移等感知不变性的容忍,导致模型需强制收敛到一个任意实例,可能造成数据与容量的浪费。 核心方法:提出LP-CFM(线性投影条件流匹配),将建模目标从围绕单个数据点的各向同性高斯分布,改为沿感知等效变体(如不同响度或对齐的波形)构成的直线分布的细长高斯。同时引入向量校准采样(VCS)在推理时纠正预测向量,确保其与投影路径对齐。 新意:相比标准OT-CFM,LP-CFM显式地将感知不变性编码到生成模型的目标分布中,使模型学习流向等效集中最近点的路径,而非固定点,从而理论上缩短和稳定了传输路径。 主要实验结果:在神经声码器任务上,LP-CFM在所有评估指标(M-STFT, PESQ, MCD等)上均一致优于OT-CFM。优势在小模型(UNet-16上UTMOS提升0.14)、低数据(使用66%数据训练的LP-CFM在多数指标上优于使用100%数据的OT-CFM)和少步采样(3步时UTMOS优势最明显)场景下尤为显著。消融实验表明,LP-CFM应用于幅度谱贡献了主要性能提升,VCS起到了预期的安全保障作用。 实际意义:为生成式语音建模提供了更符合人类感知的新视角,可能在资源受限的边缘设备部署、快速合成等实际应用中带来收益。 局限性:验证场景相对单一且受控;方法的有效性依赖于能将不变性表达为线性方程,对于更复杂的变换或端到端模型中的隐变量是否普适未知。 🏗️ 模型架构 论文未提供其模型架构的专属图片。其神经声码器架构基于一个简化的设计用于控制实验变量,流程如下: ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 313 words

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序注明第一作者) 通讯作者:Chenyang Lyu(标注为) 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业) 💡 毒舌点评 亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 348 words

Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration

📄 Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration #语音合成 #模型评估 #基准测试 #自监督学习 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #基准测试 #自监督学习 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室) 通讯作者:Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) 作者列表:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Bing Han(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Hui Wang(南开大学),Long Zhou(腾讯混元),Wei Wang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Mingyu Cui(腾讯混元),Xu Tan(腾讯混元),Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) *注:原文作者姓名“Mingyu Cui”在页脚签名中显示为“Mingyu Cui”,但参考文献中显示为“Mingyu Cui”。此处按页脚信息记录。 💡 毒舌点评 这篇论文最大的价值在于为“韵律多样性”这个有点玄学的概念建立了一套扎实的客观评估体系(DS-WED指标+ProsodyEval数据集),让社区有了统一的比较标尺,而不仅仅是依赖主观听感或片面的F0/MCD指标。但必须指出,其构建的“黄金标准”ProsodyEval数据集仅覆盖了7个模型和英语语音,其泛化到更多语言、更嘈杂或更具表现力场景的有效性尚未验证,这是其作为通用基准的主要短板。 🔗 开源详情 代码:是,提供了代码仓库链接:https://github.com/yfyeung/DS-WED。 模型权重:论文未提及公开其训练的任何模型权重(如DS-WED评估流水线中使用的k-means聚类模型)。所评测的各TTS系统为第三方开源模型,论文中提供了其官方链接。 数据集:是,提供了ProsodyEval评测数据集的访问链接:https://prosodyeval.github.io。 Demo:未提及在线演示。 复现材料:论文提供了详细的评测设置(如DS-WED使用的SSL层、聚类数)、基准测试所用的语音来源(LibriSpeech test-clean, Seed-TTS test-en),以及消融实验的具体配置。 论文中引用的开源项目:Silero-VAD (用于语音活动检测)、HuBERT、WavLM (用于语音表示)、以及所评测的TTS系统(XTTS-v2, CosyVoice, MaskGCT, E2 TTS, F5-TTS, ZipVoice)。 📌 核心摘要 问题:零样本语音合成(TTS)中韵律多样性(即同一文本不同合成结果间的语调、节奏等差异)对自然表现力至关重要,但缺乏与人类感知高度相关、且能全面捕捉韵律信息的客观评估指标。 方法核心:提出ProsodyEval人类标注数据集和DS-WED(离散语音加权编辑距离)指标。DS-WED首先使用自监督模型(如HuBERT)对语音进行离散化得到语义token序列,然后通过计算两段语音token序列间的加权编辑距离来量化韵律差异。 创新点:1) DS-WED相比传统声学指标(如log F0 RMSE、MCD)与人类评分相关性显著更高;2) 提供了首个系统性的零样本TTS韵律多样性基准测试;3) 发现了生成范式(AR vs NAR)、持续时间控制、强化学习(DPO)等因素对韵律多样性的关键影响。 实验结果:在ProsodyEval数据集上,DS-WED与人类平均意见分(PMOS)的平均皮尔逊相关系数达0.77,远高于MCD(0.66)和log F0 RMSE(0.30)。基准测试显示,自回归(AR)模型在韵律多样性上普遍优于基于流匹配的非自回归(NAR)模型,但MaskGCT(掩码生成模型)表现突出。此外,DPO对齐会降低韵律多样性(例如CosyVoice 2下降18.8%)。具体数据见下表: 表1:不同指标与人工评分PMOS的相关性对比(平均皮尔逊系数及其95%置信区间) ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 293 words

MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis

📄 MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis #语音合成 #扩散模型 #自回归模型 #端到端 #零样本 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #端到端 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Keyu An(Alibaba group) 通讯作者:Zhiyu Zhang(National Mobile Communications Research Laboratory, Southeast University) 作者列表:Keyu An⋆(Alibaba group)、Zhiyu Zhang⋆†(Alibaba group, National Mobile Communications Research Laboratory, Southeast University)、Changfeng Gao⋆(Alibaba group)、Yabin Li⋆(Alibaba group)、Zhendong Peng⋆(Alibaba group)、Haoxu Wang⋆(Alibaba group)、Zhihao Du⋆(Alibaba group)、Han Zhao⋆(Alibaba group)、Zhifu Gao⋆(Alibaba group)、Xiangang Li⋆(Alibaba group) 注:⋆表示Alibaba group,†表示National Mobile Communications Research Laboratory, Southeast University。第一作者和通讯作者基于论文标题下方作者列表顺序及贡献说明(“The first two authors contribute equally to this work.”)判断。 💡 毒舌点评 亮点在于用“表示对齐”模块巧妙地借用了预训练ASR编码器的语义知识来指导自回归模型生成更连贯的语义表示,确实显著加速了收敛并提升了内容一致性(WER大幅下降)。但其声称的“端到端”仍依赖预训练的说话人编码器和ASR编码器进行对齐,且声音克隆的说话人相似度(SS)在英文测试集上反而弱于其主要对比基线CosyVoice,暴露了该架构在全局声学上下文利用上的短板。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 426 words

Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators

📄 Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators #语音伪造检测 #音位分析 #语音合成 #模型比较 ✅ 7.0/10 | 前25% | #语音伪造检测 | #音位分析 | #语音合成 #模型比较 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 通讯作者:未说明 作者列表:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy)、Fabian Monrose(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 💡 毒舌点评 本文如同一份详尽的“现代语音合成器体检报告”,首次对如此多种类的生成器进行了大规模“病理学”扫描,发现了鼻音和阻塞音这个普遍存在的“病灶”,并精准定位问题主要出在“文本到频谱”的环节,为后续“治疗”(改进生成器或设计更精准的检测器)提供了清晰的诊断书。其短板在于只开出了“诊断书”,却没有附上“药方”或“手术指南”——即基于这些发现提出具体的、新的检测算法或生成器改进方案,且复现门槛较高。 ...

2026-04-29 · 更新于 2026-06-15 · 1 min · 196 words