ICASSP 2026 - 语音合成

63 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇T-Cache: Fast Inference For Masked Generative Transformer-Ba9.0分前25%
🥈Wavenext 2: Convnext-Based Fast Neural Vocoders with Residua9.0分前25%
🥉VoXtream: Full-Stream Text-To-Speech With Extremely Low Late8.5分前25%
4.EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion C8.5分前25%
5.No Verifiable Reward for Prosody: Toward Preference-Guided P8.0分前25%
6.Marco-Voice: A Unified Framework for Expressive Speech Synth8.0分前25%
7.Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamb8.0分前25%
8.Group Relative Policy Optimization for Text-to-Speech with L8.0分前25%
9.Do You Hear What I Mean? Quantifying the Instruction-Percept8.0分前25%
10.OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Spe8.0分前25%
11.HD-PPT: Hierarchical Decoding of Content- and Prompt-Prefere8.0分前25%
12.Emotion-Aligned Generation in Diffusion Text to Speech Model8.0分前25%
13.Measuring Prosody Diversity in Zero-Shot TTS: A New Metric,8.0分前25%
14.DAIEN-TTS: Disentangled Audio Infilling for Environment-Awar8.0分前25%
15.BridgeCode: A Dual Speech Representation Paradigm for Autore8.0分前25%
16.Continuous-Token Diffusion for Speaker-Referenced TTS in Mul8.0分前10%
17.Prosody-Guided Harmonic Attention for Phase-Coherent Neural8.0分前25%
18.Optimizing Speech Language Models for Acoustic Consistency8.0分前25%
19.NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with N8.0分前25%
20.ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with S8.0分前25%
21.EMG-to-Speech with Fewer Channels7.5分前25%
22.VividTalker: A Modular Framework for Expressive 3D Talking A7.5分前25%
23.Real-Time Streaming MEL Vocoding with Generative Flow Matchi7.5分前25%
24.From Hallucination to Articulation: Language Model-Driven Lo7.5分前25%
25.SynParaSpeech: Automated Synthesis of Paralinguistic Dataset7.5分前25%
26.Asynchrony-Aware Decoupled Multimodal Control for Cued Speec7.5分前10%
27.DMP-TTS: Disentangled Multi-Modal Prompting for Controllable7.5分前25%
28.RRPO: Robust Reward Policy Optimization for LLM-Based Emotio7.5分前25%
29.Syncspeech: Efficient and Low-Latency Text-to-Speech Based o7.5分前25%
30.Principled Coarse-Grained Acceptance For Speculative Decodin7.5分前25%
31.SPADE: Structured Pruning and Adaptive Distillation for Effi7.5分前25%
32.Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Code7.5分前25%
33.Discrete Diffusion for Generative Modeling of Text-Aligned S7.5分前25%
34.Emotional Dimension Control in Language Model-Based Text-To-7.5分前25%
35.Beyond Global Emotion: Fine-Grained Emotional Speech Synthes7.5分前25%
36.QFOCUS: Controllable Synthesis for Automated Speech Stress E7.5分前50%
37.Synthetic yet Striking? Assessing Vocal Charisma in TTS via7.5分前25%
38.TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Fram7.5分前25%
39.Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-7.5分前25%
40.Erasing Your Voice Before it’s Heard: Training-Free Speaker7.5分前25%
41.InstructAudio: Unified Speech and Music Generation with Natu7.5分前25%
42.GLA-GRAD++: An Improved Griffin-Lim Guided Diffusion Model f7.5分前25%
43.Int-MeanFlow: Few-Step Speech Generation with Integral Veloc7.5分前25%
44.Training Flow Matching Models with Reliable Labels via Self-7.5分前25%
45.Hierarchical Discrete Flow Matching For Multi-Codebook Codec7.5分前25%
46.Frame-Stacked Local Transformers for Efficient Multi-Codeboo7.5分前25%
47.Direct Preference Optimization For Speech Autoregressive Dif7.5分前25%
48.MirrorTalk: Forging Personalized Avatars Via Disentangled St7.0分前25%
49.Residual Tokens Enhance Masked Autoencoders for Speech Model7.0分前50%
50.SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word L7.0分前50%
51.SPAM: Style Prompt Adherence Metric for Prompt-Based TTS7.0分前50%
52.Gelina: Unified Speech and Gesture Synthesis Via Interleaved7.0分前50%
53.Retrieval-Based Speculative Decoding For Autoregressive Spee7.0分前50%
54.T-Mimi: A Transformer-Based Mimi Decoder for Real-Time On-Ph7.0分前50%
55.Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fi7.0分前25%
56.EmoShift: Lightweight Activation Steering for Enhanced Emoti7.0分前50%
57.Task Vector in TTS: Toward Emotionally Expressive Dialectal7.0分前50%
58.Quantifying Speaker Embedding Phonological Rule Interactions7.0分前25%
59.PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual7.0分前50%
60.LP-CFM: Perceptual Invariance-Aware Conditional Flow Matchin7.0分前25%
61.SFM-TTS: Lightweight and Rapid Speech Synthesis with Flexibl7.0分前25%
62.MELA-TTS: Joint Transformer-Diffusion Model with Representat7.0分前25%
63.Combining Multi-Order Attention and Multi-Resolution Discrim6.5分前50%

📋 论文详情

🥇 T-Cache: Fast Inference For Masked Generative Transformer-Based TTS Via Prompt-Aware Feature Caching

🔥 9.0/10 | 前25% | #语音合成 | #实时处理 | #零样本 #语音大模型

👥 作者与机构

  • 第一作者:Obed Irihose(电子科技大学信息与通信工程学院)
  • 通讯作者:Le Zhang(电子科技大学信息与通信工程学院)
  • 作者列表:Obed Irihose(电子科技大学信息与通信工程学院)、Le Zhang(电子科技大学信息与通信工程学院)

💡 毒舌点评

论文巧妙地将图像/音频生成领域的特征缓存技巧“移植”并针对TTS特性(提示序列稳定性、两阶段结构)进行了深度定制,实现了显著且可靠的加速,是典型的“把好钢用在刀刃上”的工程创新。不过,其创新本质是对现有技术的精巧组合与适配,而非提出新的缓存理论或生成范式,因此距离“里程碑”式突破尚有一步之遥。

📌 核心摘要

  1. 问题:基于掩码生成Transformer(MGT)的文本到语音(TTS)系统(如MaskGCT)虽然支持并行生成且质量高,但其迭代式反掩码过程需要数十步解码,导致推理计算成本高昂,难以实时部署。
  2. 方法核心:提出T-Cache,一种训练无关的插拔式缓存加速机制。其核心是通过分析发现相邻解码步骤间,提示令牌(参考语音、文本)的特征高度相似,而输入令牌特征变化显著。因此,T-Cache在注意力层和MLP层分别缓存并重用提示相关特征,仅更新输入部分特征。此外,通过存储条件与无条件分支的输出差值来缓存分类器自由引导(CFG)信息,并发现可在语义到声学(S2A)阶段跳过CFG以进一步加速。
  3. 与已有方法相比:不同于直接迁移到MGT-TTS的图像域缓存方法(如ToCa, FORA),或简单的减少解码步数,T-Cache是首个针对MGT-TTS设计的、结合了提示感知缓存、条件缓存和阶段特异性CFG优化的综合加速方案。
  4. 主要实验结果:在LibriSpeech、SeedTTS等多个数据集上,T-Cache相比基线模型(MaskGCT)实现了2.61至3.41倍的推理加速,同时在语音自然度(MOS)、说话人相似度(CSIM)等核心指标上保持相当甚至略有提升,显著优于其他迁移的缓存方法。关键消融实验证实了非线性缓存步调度、阶段CFG优化等设计的有效性。详见下表:
    方法数据集WER↓CSIM↑MOS↑Spd.↑
    Baseline (T=25)LibriSpeech test-clean9.68%0.953.861.00×
    Baseline (T=10)LibriSpeech test-clean13.86%0.953.701.99×
    FORA [11]LibriSpeech test-clean15.62%0.953.691.89×
    ToCa [9]LibriSpeech test-clean17.12%0.953.541.62×
    TaylorSeer [14]LibriSpeech test-clean17.92%0.953.592.11×
    T-Cache (Ours)LibriSpeech test-clean10.50%0.943.952.85×
    Baseline (T=25)SeedTTS test-en2.75%0.953.561.00×
    Baseline (T=10)SeedTTS test-en4.06%0.953.482.28×
    T-Cache (Ours)SeedTTS test-en3.06%0.953.803.41×
  5. 实际意义:显著降低了MGT-TTS的推理延迟和计算开销,使其更接近实时应用的要求,对语音合成产品的端侧或云端高效部署具有直接价值。
  6. 主要局限性:论文坦承,T-Cache会增加显存占用(因为需要缓存特征),这是未来需要改进的方向。另外,在某些极端情况下(如Accent Similarity指标)可能有轻微性能下降。


🥈 Wavenext 2: Convnext-Based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for Gan And Diffusion Models

🔥 9.0/10 | 前25% | #语音合成 | #卷积神经网络 | #扩散模型 #对抗生成网络

👥 作者与机构

  • 第一作者:Wangzixi Zhou(奈良先端科学技术大学院大学 & 日本信息通信研究机构)
  • 通讯作者:未说明
  • 作者列表:Wangzixi Zhou(奈良先端科学技术大学院大学 & 日本信息通信研究机构)、Takuma Okamoto(日本信息通信研究机构)、Yamato Ohtani(日本信息通信研究机构)、Sakriani Sakti(奈良先端科学技术大学院大学)、Hisashi Kawai(日本信息通信研究机构)

💡 毒舌点评

该论文的最大亮点在于其“统一框架”的野心和务实的工程优化,用一个基于ConvNeXt的模块巧妙兼容了GAN与扩散两条技术路线,特别是将扩散模型声码器的训练时间压缩到32小时,对资源敏感场景极具吸引力。然而,其创新更多是架构整合与效率优化,而非底层原理突破,且随着迭代次数增加,模型大小线性膨胀(从15M到75M)的短板在资源严格受限的边缘设备上可能会抵消其部分速度优势。

📌 核心摘要

  1. 要解决什么问题:现有神经声码器大多局限于GAN或扩散模型中的一种,难以统一;且原始的ConvNeXt声码器(如WaveNeXt)在多说话人场景下性能有限。
  2. 方法核心是什么:提出WaveNeXt 2,一个统一的ConvNeXt生成器框架,其核心是残差去噪子模型设计。生成器预测的是每一步的噪声分量,而非直接预测波形,从而使同一架构可适配GAN(采用固定点���代)和扩散模型(采用分阶段子模型训练)两种训练范式。
  3. 与已有方法相比新在哪里:首次将ConvNeXt架构同时应用于GAN和扩散声码器;通过子模型训练策略改进了原始WaveNeXt在多说话人上的不足;简化了WaveFit的训练流程(移除了不必要的初始噪声和增益调整)。
  4. 主要实验结果如何:在多说话人数据集LibriTTS-R上进行验证,结果如下表所示。GAN-WaveNeXt 2在推理速度上显著优于WaveFit和HiFi-GAN,同时保持质量相当;Diff-WaveNeXt 2在训练效率(仅需32小时)和CPU推理速度上远超FastDiff,并取得竞争性的质量。
    模型RTF (CPU) ↓UTMOS ↑NISQA ↑训练时间 (GPU)
    GAN-WaveNeXt 2 (4 iter)0.204.04 ± 0.094.01 ± 0.20410 小时
    WaveFit (5 iter)5.364.04 ± 0.094.02 ± 0.19410 小时
    HiFi-GAN V10.804.05 ± 0.113.99 ± 0.22270 小时
    Diff-WaveNeXt 20.163.87 ± 0.053.81 ± 0.1932 小时
    FastDiff w/ sub-modeling0.803.78 ± 0.063.67 ± 0.2096 小时
  5. 实际意义是什么:为声码器选择提供了灵活方案:GAN-WaveNeXt 2适用于对合成质量要求极高的场景,而Diff-WaveNeXt 2则以其极快的训练速度和优秀的CPU推理能力,非常适合资源受限或需要快速迭代的应用。
  6. 主要局限性是什么:采用子模型策略后,模型总体参数量随子模型数量线性增长(如Diff-WaveNeXt 2达57.68M),增加了存储和部分计算负担。论文中未明确讨论其在流式处理中的应用。

🥉 VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency

🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #零样本

👥 作者与机构

  • 第一作者:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系)
  • 通讯作者:未说明
  • 作者列表:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系)、Gustav Eje Henter(KTH皇家理工学院,语音、音乐与听觉系)、Gabriel Skantze(KTH皇家理工学院,语音、音乐与听觉系)

💡 毒舌点评

亮点:这篇论文最精妙的地方在于,它通过将文本编码器(Phoneme Transformer)设计为增量式,并限制了前瞻长度,巧妙地实现了“收到一个词就开口说”的极低延迟,同时利用单调对齐和分层预测保证了合成质量的连贯性。短板:尽管模型效率很高,但训练数据规模(9k小时)在当下这个“数据为王”的大模型时代只能算中等,这可能限制了其在超大规模、多语言或更复杂说话风格下的泛化能力上限,论文也承认了数据规模是未来工作之一。

📌 核心摘要

  1. 问题:当前流式文本转语音(TTS)系统存在较高的初始延迟(从输入文本到发出第一个音素的时间),或需要复杂的多阶段流水线,影响了实时交互体验。
  2. 方法核心:提出VoXtream,一个完全自回归的零样本流式TTS模型。其核心是一个三层Transformer架构:(1) 增量音素Transformer(PT)逐步编码输入文本并允许有限前瞻;(2) 时间Transformer(TT)基于音素和过去音频预测语义令牌和时长令牌;(3) 深度Transformer(DT)基于前两者生成声学令牌。关键设计是基于“停留/切换”标志的单调音素对齐预测。
  3. 创新点:与先前工作相比,VoXtream首次实现了从接收到第一个词就开始生成语音的增量处理模式,无需等待整个句子或固定数量的未来词。它将文本编码、时序预测和声学生成解耦到三个专用模块中,平衡了延迟与质量。
  4. 实验结果:在公开流式TTS模型中达到了最低的首次分组延迟(FPL):102ms(使用torch.compile加速后)。在9k小时数据上训练,其质量(WER, SPK-SIM, UTMOS)可与甚至超越许多使用更大规模数据训练的非流式和流式基线模型。在主观MUSHRA评测中,其流式版本的自然度与部分非流式模型相当。在长文本流式场景下,其自然度显著优于CosyVoice2。
  5. 实际意义:为需要极低延迟响应的实时语音应用(如语音助手、同步翻译、对话AI)提供了一个高效且高质量的解决方案,推动了流式语音合成技术的实用化。
  6. 主要局限性:训练数据规模(9k小时)中等;在零样本说话人相似度上,仍低于使用更大规模数据和非自回归解码器(如流匹配)的顶级模型(如CosyVoice2);长文本流式合成的稳定性有待进一步验证。

4. EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS

🔥 8.5/10 | 前25% | #语音合成 | #强化学习 | #语音情感识别 #大语言模型

👥 作者与机构

  • 第一作者:Haoxun Li(杭州高等研究院、中国科学院大学)
  • 通讯作者:Taihao Li(杭州高等研究院、中国科学院大学)
  • 作者列表:Haoxun Li(杭州高等研究院、中国科学院大学)、Yu Liu(未说明具体机构)、Yuqing Sun(未说明具体机构)、Hanlei Shi(未说明具体机构)、Leyuan Qu(未说明具体机构)、Taihao Li(杭州高等研究院、中国科学院大学)

💡 毒舌点评

亮点:本文创新性地将强化学习(GRPO)引入LLM-TTS,为解决其“离散Token难以表达连续情感”的痛点提供了优雅的框架,并首次实现了同时控制VAD全局强度和局部词强调,实验数据全面且显著优于基线。 短板:论文声称是“本地PDF”,但缺乏对代码和模型权重公开的明确承诺,严重阻碍了社区的复现与跟进;另外,对“惊讶”等少数情感的强调控制效果较弱,表明模型的泛化能力仍有提升空间。

📌 核心摘要

  1. 问题:基于大语言模型的语音合成系统虽能实现高质量零样本合成,但由于其依赖离散语音Token,难以实现对情感的细粒度控制(如连续强度、重点词强调)。
  2. 方法核心:提出EMORL-TTS框架,通过监督微调(SFT)与强化学习(GRPO)相结合的方式,统一建模全局情感强度(在VAD空间)与局部语音强调(通过音高和能量特征)。强化学习阶段使用三个任务特定奖励:情感分类准确性、全局VAD强度匹配度和局部强调清晰度。
  3. 创新点:a) 首次将VAD空间的全局情感强度控制引入LLM-TTS;b) 设计了基于韵律特征的局部强调控制机制;c) 构建了融合全局与局部控制的统一框架。
  4. 实验结果:实验表明,EMORL-TTS在情感准确性(目标与感知准确率均达0.88以上)、强度区分度(平均识别率0.71)和强调清晰度(平均准确率0.75)上均显著优于CosyVoice2、Emosphere++等强基线,同时MOS(4.94)和NISQA(4.11)分数与之相当,证明控制能力提升未牺牲合成质量。具体关键数据如下表所示:

表1:情感准确性客观评估(Emotion2vec准确率)

模型平均中性生气开心悲伤惊讶
CosyVoice20.630.990.560.700.480.44
EMORL-TTS w/o GRPO0.810.910.780.860.750.76
Emosphere++0.850.970.930.780.800.77
EMORL-TTS0.880.990.930.910.780.81

表3:情感强度区分度主观评估(正确选择更强样本的比例)

情感模型弱<中中<强弱<强
生气Relative Attribute0.540.540.68
Emosphere++0.740.780.78
EMORL-TTS0.560.820.82
平均Relative Attribute0.500.520.58
Emosphere++0.560.470.50
EMORL-TTS0.710.650.72

表5:语音质量评估

模型MOS (↑)NISQA (↑)
Spark-TTS4.964.15
CosyVoice24.964.14
EMORL-TTS4.944.11
  1. 实际意义:该工作将LLM-TTS的可控性从类别推向了连续强度和局部韵律层面,为生成更自然、更具表现力的语音合成(如个性化对话、有声内容创作)奠定了技术基础。
  2. 主要局限性:a) 未开源代码与模型权重,可复现性存疑;b) 对部分情感(如惊讶)的强调控制效果有待提升;c) 强化学习训练依赖人工标注的强调文本,可能限制其在无标注场景的应用。

5. No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集

👥 作者与机构

  • 第一作者:Seungyoun Shin(Channel Corporation, Seoul, South Korea)
  • 通讯作者:Sungwook Jeon(NAVER Cloud, South Korea)†
  • 作者列表:Seungyoun Shin(Channel Corporation),Dongha Ahn(Kernelspace),Jiwoo Kim(成均馆大学, Sungkyunkwan University),Sungwook Jeon(NAVER Cloud)

💡 毒舌点评

论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励,模型就只会当“背稿机器”,丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案,确实用最小的数据代价把韵律给“救”回来了,ELO分数吊打一众基线,这是其最大亮点。但短板在于,DPO本身已不是新方法,论文的创新更多是“对症下药”的工程应用和验证,而非方法论上的突破,且每轮都要人工标注,扩展性存疑。

📌 核心摘要

  1. 要解决什么问题:在神经TTS中,使用基于转录错误率(CER)和负对数似然(NLL)的强化学习(如GRPO)优化模型,虽然提升了语音识别准确性,但会导致生成的语音韵律单调、不自然(“韵律坍塌”)。同时,简单加入说话人相似度奖励会破坏训练稳定性。

  2. 方法核心是什么:提出迭代的直接偏好优化(DPO)方案。从当前模型出发生成候选语音,由人工标注偏好对(更自然 vs. 不自然),然后使用DPO损失直接优化模型,使其倾向于生成被偏好的语音。该过程迭代进行,每轮使用少量(约200对)新鲜的偏好数据。

  3. 与已有方法相比新在哪里:不同于以往将重点放在设计复杂的复合奖励函数上,本文指出瓶颈在于“奖励设计”,并采用了一种无需单独训练奖励模型、直接使用人类偏好作为可验证信号的优化路径。该路径通过迭代进行,能有效平衡韵律自然度与转录鲁棒性。

  4. 主要实验结果如何:在全新的KoCC-TTS评测集上,迭代DPO方法在人类偏好(ELO分数)上取得了最高分(Round 2: 1190.1),显著优于GRPO(753.7)和商业系统(如Supertone: 1046.9)。同时,其字符错误率(CER)保持在有竞争力的水平(Round 2: 3.60%),远优于GRPO的扩展版本(42.63%)。

    模型/方法CER ↓ (%)ELO
    商业/开源基线
    ElevenLabs (Multilingual v2)4.74955.1
    Supertone2.981046.9
    GPT-4o-mini-tts (sage)2.91848.9
    Llasa-8B3.24
    Llasa-3B3.47
    Llasa-1B10.45
    内部模型
    channel-base2.901150.1
    GRPO (clean)2.20753.7
    GRPO-sim extension42.63878.7
    channel-base-dpo-v15.801096.5
    channel-base-dpo-v23.601190.1
    channel-base-dpo-v33.301064.2
  5. 实际意义是什么:为提升对话式TTS的自然度提供了一种实用、数据高效的后训练方案。证明了在自动指标不可靠的领域,人类偏好优化是可靠路径。发布的KoCC-TTS数据集为评估韩语任务导向对话TTS提供了新基准。

  6. 主要局限性是什么:1)依赖人工标注,每轮都需要新的偏好数据,持续优化成本较高;2)论文未深入分析偏好对选择的具体标准,以及标注者间一致性对结果的影响;3)方法在多语言和更广泛场景下的泛化能力未验证。


6. Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成

👥 作者与机构

  • 第一作者:未说明(论文作者列表未按顺序注明第一作者)
  • 通讯作者:Chenyang Lyu(标注为)
  • 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang
  • 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业)

💡 毒舌点评

亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。

📌 核心摘要

  1. 解决的问题:现有语音合成系统难以独立、高质量地控制“说话人身份”和“情感表达”,两者容易纠缠,且缺乏高质量的中文情感语音数据。
  2. 方法核心:提出Marco-Voice统一框架,核心是旋转情感嵌入(通过情感/中性语音对差分向量构建)、说话人-情感正交解耦与批内对比学习(强制特征空间分离),以及在流匹配模型中引入情感与语音token的交叉注意力进行深度融合。
  3. 与已有方法相比新在何处:不同于以往将说话人和情感编码器分离的模块化方法,Marco-Voice通过一个统一的语言模型和流匹配模型,利用上述解耦与融合技术,在一个框架内实现了高质量、高可控的克隆与情感合成。
  4. 主要实验结果:
    • 主实验(主观评价):在语音克隆任务上,Marco-Voice在所有指标上超越CosyVoice1和2,说话人相似度(SS)达到0.828。在情感语音合成任务上,情感表达(EE)得分4.225,整体满意度(OS)4.430。
    • 消融实验:逐步添加各模块(v1-v4),WER在英文(LibriTTS)数据集上从12.1降至11.4,DNS-MOS保持竞争力。情感准确率在中/英文上分别达到约0.74和0.76。
    • A/B测试:Marco-Voice在直接对比中60%-65%的情况下优于基线。
      SystemSC ↑RS ↑SN ↑OS ↑SS ↑
      CosyVoice13.0003.1753.2252.8250.700
      CosyVoice23.7704.0903.1503.3300.605
      Marco-Voice4.5454.2904.2054.4300.828
  5. 实际意义:为需要高度个性化与情感表现力的语音应用(如虚拟人、有声书、交互式助手)提供了一个强大的技术方案和数据资源。
  6. 主要局限性:情感分类准确率并非100%,对某些情感(如“惊讶”)或特定性别说话人的建模可能更弱;框架基于已有的CosyVoice进行扩展,其通用性有待在更多架构上验证。

7. Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis

🔥 8.0/10 | 前25% | #语音合成 | #信号处理 #状态空间模型 | #信号处理 #状态空间模型

👥 作者与机构

  • 第一作者:Jiayue Xie†, Ruicong Wang† (†共同第一作者,单位:香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室)
  • 通讯作者:Siqi Cai⋆ (⋆通讯作者,单位:哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室)
  • 作者列表:Jiayue Xie (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Ruicong Wang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Xueyi Zhang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Siqi Cai (哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室), Haizhou Li (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室; 深圳湾实验室)

💡 毒舌点评

论文的亮点在于其模块设计(AFM与TPM)逻辑清晰,针对sEEG信号特性的动机阐述充分,消融实验和多任务(发声/默念/想象)评估也显得扎实可靠。然而,将实验仅局限于2名被试的sEEG数据,虽然这是领域早期常见情况,但论文并未充分讨论其结论在更广泛人群和非癫痫患者中的潜在泛化性限制,这使得“有效性”的声明略显单薄。

📌 核心摘要

  1. 要解决的问题:现有从立体脑电图(sEEG)信号合成语音的方法存在两大局限:一是依赖固定的、预定义的频率频段,无法充分利用sEEG丰富的频谱信息;二是使用单一时间尺度的模型(如LSTM),难以捕捉语音产生过程中多层级的时间动态(如快速音素与慢速韵律)。
  2. 方法核心:论文提出了NeuroMamba框架,包含两个核心模块:自适应频率模块(AFM)和时间金字塔Mamba(TPM)。AFM通过可学习的频域滤波器,为每个sEEG通道动态优化并提取关键频率成分,然后通过卷积层融合跨通道特征。TPM采用多级金字塔结构,在不同时间分辨率上使用Mamba块建模,并通过上采样和逐级融合,整合多尺度的时间动态信息。
  3. 与已有方法相比新在哪里:1)首次在sEEG语音解码中引入可学习的、通道特定的频域滤波,取代固定的频带提取;2)创新性地将金字塔结构与Mamba状态空间模型结合,构建TPM,以高效、分层地建模语音的多尺度时间结构,同时保持线性计算复杂度。
  4. 主要实验结果:在两位sEEG被试的发声、默念和想象三种语音任务上,NeuroMamba在皮尔逊相关系数(PCC,↑)和梅尔倒谱失真(MCD,↓)两项指标上均优于所有基线(CNN+LSTM, AFM+LSTM, CNN+TPM)。例如,在Subject 1的发声任务中,PCC达到0.757,MCD为2.901,相比最强基线CNN+LSTM分别提升0.035和降低0.283。消融实验证实,移除AFM或TPM都会导致性能下降。
  5. 实际意义:该工作为下一代低侵入性神经语音假体提供了新的技术框架。通过更充分地挖掘sEEG信号的时频特性,有望提升对言语意图(尤其是想象语音)的解码质量,从而帮助因ALS或脑干中风等疾病而失去语言能力的患者恢复交流。
  6. 主要局限性:1)数据规模极小,仅包含2名接受临床sEEG植入的癫痫患者,模型的泛化性(如对健康人、不同语言)未得到验证;2)实验未与近年基于高密度皮层电图(ECoG)的前沿解码工作进行直接性能对比;3)论文未提供模型参数量、具体训练时长及硬件细节,对完全复现有一定影响。


8. Group Relative Policy Optimization for Text-to-Speech with Large Language Models

🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #多语言 #零样本

👥 作者与机构

  • 第一作者:Chang Liu(中国科学技术大学,国家语音及语言信息处理工程技术研究中心)
  • 通讯作者:Zhen-Hua Ling(中国科学技术大学,国家语音及语言信息处理工程技术研究中心)
  • 作者列表:Chang Liu(中国科学技术大学),Ya-Jun Hu(科大讯飞研究院),Ying-Ying Gao(九天人工智能研究院),Shi-Lei Zhang(九天人工智能研究院),Zhen-Hua Ling(中国科学技术大学)

💡 毒舌点评

亮点在于巧妙地将源自数学推理的GRPO算法“移植”到语音合成领域,并用一个现成的ASR模型构建了简单有效的复合奖励,实现了训练复杂度的显著降低和性能的稳定提升。短板则在于对“自然度提升”的深层机理探讨不足,仅通过MOS分数和少量示例论证,缺乏更系统的声学或韵律学分析,且Llasa-1B上的主观评估结果不佳也未得到充分解释。

📌 核心摘要

  1. 问题:现有基于大语言模型(LLM)的文本到语音(TTS)模型在使用强化学习(RL)进行微调时,面临训练流程复杂(如PPO需要维护价值模型)、或依赖昂贵的偏好数据(如DPO)等问题。
  2. 方法核心:提出一种基于分组相对策略优化(GRPO)的微调方法。该方法利用一个现成的自动语音识别(ASR)模型,从生成的语音波形中计算字符错误率(CER)和负对数似然(NLL),并通过调和平均融合为一个复合奖励信号。该奖励用于计算组内相对优势,从而微调预训练的LLM-TTS模型。
  3. 创新点:首次将GRPO算法应用于LLM-based TTS的微调;设计了一种无需额外训练模型、结合客观可懂度(CER)与模型置信度(NLL)的复合奖励函数。
  4. 主要实验结果:在CosyVoice2和Llasa-1B两个开源基线模型上,GRPO微调显著提升了零样本合成的可懂度(CER/WER降低)和自然度(MOS提升)。例如,对CosyVoice2,中文CER从1.41降至1.07,英文WER从2.46降至2.30;主观平均意见得分(MOS)在四种语言上均有统计显著提升(如中文从4.42提升至4.58)。消融实验证明,结合CER与NLL的复合奖励优于单一奖励。
  5. 实际意义:该方法简化了LLM-TTS模型的RL训练管线,使其更稳定、易于实施,并有效提升了合成语音的质量和鲁棒性。
  6. 主要局限性:方法依赖于一个高质量的ASR模型作为奖励提供者;论文未深入分析NLL奖励如何具体改善语音自然度的机理;在Llasa-1B模型上,RL微调未能带来主观自然度的显著提升,原因未充分探究。

9. Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems

🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #数据集 #语音情感识别

👥 作者与机构

  • 第一作者:Yi-Cheng Lin(National Taiwan University)
  • 通讯作者:未说明
  • 作者列表:Yi-Cheng Lin(National Taiwan University)、Huang-Cheng Chou(University of Southern California)、Tzu-Chieh Wei(University of Michigan)、Kuan-Yu Chen(National Taiwan University)、Hung-yi Lee(National Taiwan University)

💡 毒舌点评

亮点在于精准定义了指令引导TTS领域一个被忽视的关键问题——“指令-感知鸿沟”,并首次系统性地引入了程度副词和情感强度形容词这两个细粒度维度进行量化评估,为未来研究提供了明确的改进靶点和高质量的基准数据集(E-VOC)。短板是,虽然评估框架设计精巧,但论文在分析环节更侧重于现象描述(如“模型倾向于生成成人声音”),对于导致这些现象的模型架构差异、训练数据偏差等深层原因挖掘不足,使得结论的启发性略打折扣。

📌 核心摘要

  1. 要解决什么问题:当前指令引导的文本转语音(ITTS)系统虽允许用户通过自然语言控制语音风格,但用户指令与听众感知之间的实际对齐程度,尤其是对细粒度属性(如不同强度的情感、不同年龄的声音)的控制能力,尚未被系统性量化研究,存在一个“指令-感知鸿沟”。
  2. 方法核心:本文提出了一个全新的评估框架,首次引入“程度副词”(如 slightly, extremely)和“情感强度形容词”(如 Content, Happy, Ecstatic)作为控制维度,结合传统的说话人年龄和词汇重音控制任务,对ITTS系统进行综合评估。为此,他们构建了一个名为E-VOC(Expressive VOice Control)的大规模人类评估数据集,包含超过60,000个人类评分。
  3. 与已有方法相比新在哪里:不同于以往研究仅使用粗粒度的情感或风格标签(如“快乐”),或依赖自动分类器进行客观评估,本工作首次在人类感知评估中纳入了连续、分级的表达属性(程度和情感强度),并通过大规模众包获得了可靠的人类感知基准,更直接地反映了用户意图与最终感知的差异。
  4. 主要实验结果如何:评估了5个代表性ITTS系统。结果显示:(1) gpt-4o-mini-tts是唯一能在响度、音高、语速和情感强度上可靠遵循程度指令并产生可感知梯度变化的模型。(2) 所有模型在控制说话人年龄方面表现均不佳(最佳准确率仅29.4%),且普遍倾向于生成“成人”声音,即使指令要求“儿童”或“老人”声音。(3) 词汇重音控制极具挑战性,最佳模型(gpt-4o)的准确率也仅为26.5%。具体关键数据见下表。
任务模型关键指标(数值)
说话人年龄 (Age)总体准确率 (最高)0.294 (Parler-large)
总体准确率 (gpt-4o)0.289
F1-score (Child, 最高)0.113 (Parler-large)
F1-score (Elderly, 最高)0.339 (UniAudio)
词汇重音 (Emphasis)总体准确率 (最高)0.265 (gpt-4o)
总体准确率 (随机基线)≈0.143
  1. 实际意义是什么:本工作为ITTS系统的评估和开发建立了新的、更贴近真实用户需求的基准。E-VOC数据集的公开将极大推动该领域在细粒度控制、人类感知对齐等方面的研究,并为开发更可靠的自动评估工具提供了训练数据。
  2. 主要局限性是:研究仅评估了5个模型,结论的普适性需验证;论文未对导致“指令-感知鸿沟”的具体模型架构或训练因素进行深入分析;评估仅限英语,未涉及多语言场景。

10. OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Speech

🔥 8.0/10 | 前25% | #语音合成 | #推理 | #大语言模型 #数据集

👥 作者与机构

  • 第一作者:Yong Ren(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院)
  • 通讯作者:Jiangyan Yi(清华大学自动化系),Jianhua Tao(清华大学自动化系;北京信息科学与技术国家研究中心),Zhengqi Wen(清华大学自动化系;北京信息科学与技术国家研究中心)
  • 作者列表:
    1. Yong Ren(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院)
    2. Jiangyan Yi(清华大学自动化系)
    3. Jianhua Tao(清华大学自动化系;北京信息科学与技术国家研究中心)
    4. Haiyang Sun(中国科学院自动化研究所,多模态人工智能系统国家重点实验室)
    5. Zhengqi Wen(清华大学自动化系;北京信息科学与技术国家研究中心)
    6. Hao Gu(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院)
    7. Le Xu(中国科学院自动化研究所,多模态人工智能系统国家重点实验室)
    8. Ye Bai(中国科学院自动化研究所,多模态人工智能系统国家重点实验室)

💡 毒舌点评

亮点:这项工作最漂亮的地方在于它系统性地解决了一个真实痛点——不再让用户纠结于“高兴”还是“快乐”,而是直接告诉模型“用一种在酒局上试探对手的、带着不屑的语气说话”,并为此构建了从数据到模型的全套方案。短板:但整个数据集的构建像一条精密的“LLM流水线”,从上下文提取、指令生成到一致性过滤、推理链标注,对Qwen3和DeepSeek-R1等模型的依赖过重,这既可能引入特定模型的偏差,也使得数据集的“开放性”打了个折扣。

📌 核心摘要

这篇论文旨在解决现有“指令驱动语音合成”(InstructTTS)系统无法处理灵活、高层次的自然语言描述,只能依赖预定义声学属性标签的局限性。其核心方法是提出一个新的范式——OV-InstructTTS,并配套提出了一个由专用数据集OV-Speech和一个推理驱动的框架OV-InstructTTS-TEP组成的完整解决方案。与之前方法相比,新范式直接面向从叙事上下文中生成的开放式词汇指令,而新框架在合成前通过一个显式的“思考”步骤,将高层指令分解并推断出具体的情感、声学和副语言特征。主要实验结果表明,OV-InstructTTS-TEP在指令遵循度(Gemini Score 70.42, Gemini Rank 3.39/6)、语音自然度(MOS 4.28)和指令一致性(ICMOS 3.91)上均优于包括GPT-4o(API)和CosyVoice2在内的多个强大基线。该工作的实际意义在于推动TTS系统从“参数控制”向更直观的“意图控制”演进,提升用户友好性。其主要局限性在于数据集OV-Speech的构建过程高度依赖多个大型语言模型,可能引入偏差,且完全复现模型需要未公开的权重和更多硬件信息。

模型Gemini Score↑Gemini Rank↓CER(%)↓SIM↑MOS↑ICMOS↑
GroundTruth75.432.94/63.10-4.10 (±0.14)4.33 (±0.15)
Cosyvoice2 (No-Instruct)66.993.59/63.090.6593.84 (±0.19)2.94 (±0.23)
GPT4odiamond68.313.48/63.890.7013.23 (±0.24)2.42 (±0.23)
Higgs Audio V2diamond65.103.73/68.420.7073.81 (±0.20)3.00 (±0.20)
Step-Audio-2-mini67.593.56/65.490.7013.53 (±0.24)2.40 (±0.21)
OV-InstructTTS-TEP70.423.39/63.610.7224.28 (±0.14)3.91 (±0.17)

表2展示了主实验结果,本文提出的OV-InstructTTS-TEP在指令遵循的客观与主观指标上均取得最优。

图2: pdf-image-page2-idx1 图2展示了OV-InstructTTS-TEP的模型架构(a)和一个具体的工作示例(b)。架构图清晰地表明了模型接收开放式指令和转录文本后,首先生成推理过程(Think Token),然后基于推理结果生成带有情感和副语言标签的富化转录文本以及对应的音频Token。


11. HD-PPT: Hierarchical Decoding of Content- and Prompt-Preference Tokens for Instruction-Based TTS

🔥 8.0/10 | 前25% | #语音合成 | #大语言模型 | #自回归模型 #对比学习

👥 作者与机构

  • 第一作者:Sihang Nie(华南理工大学)
  • 通讯作者:Xiaofen Xing(华南理工大学)
  • 作者列表:Sihang Nie(华南理工大学)、Xiaofen Xing(华南理工大学)、Jingyuan Xing(华南理工大学)、Baiji Liu(华南理工大学,广州趣玩网络科技有限公司)、Xiangmin Xu(佛山大学,华南理工大学)

💡 毒舌点评

亮点: 论文将“精细控制”这个模糊的目标,拆解为可操作的、由两个专用token监督的分层生成步骤,这种“结构化解耦”的思路非常清晰且有效,实验数据也确实支撑了其优越性。 短板: 训练过程描述不够细致,例如文本指令的预处理、训练时的正则化细节(如何概率性地掩码隐藏状态和提示token)不够明确,且代码未开源,使得复现其“精妙”的工程实现颇具挑战。

📌 核心摘要

  1. 问题: 现有基于大语言模型的指令TTS(Instruct-TTS)方法,试图将单层的文本指令直接映射到多层的语音token上,导致精细控制能力不足,存在“层级不匹配”问题。
  2. 方法核心: 提出HD-PPT框架,包含两个核心创新:a) 设计一个新的语音编解码器(Speech Token Codec),通过ASR和CLAP两个监督目标,将语音token解耦为“内容偏好token”(语义)和“提示偏好token”(风格);b) 设计分层解码策略,引导LLM按“内容基础 -> 风格渲染 -> 完整声学表征”的顺序生成token。
  3. 新意: 相比于直接建模单一语音token序列的方法,本文首次将语音token在生成过程中显式地结构化解耦,并分别用语义和风格目标进行监督,实现了从“隐式映射”到“显式分层生成”的范式转变。
  4. 主要结果: 在TextrolSpeech和EmoVoice-DB两个数据集上,HD-PPT在主观自然度(MOS-N)、风格一致性(MOS-S)和情感相似度(EMO-SIM)指标上均取得了最佳成绩(见表1)。消融实验证明,移除任一偏好token或改变解码策略都会导致性能下降。
  5. 实际意义: 为实现高保真、高可控的语音合成提供了有效框架,提升了LLM在语音生成任务中的指令遵循能力,对智能语音助手、有声内容创作等应用有推动作用。
  6. 主要局限: 多组件架构增加了模型复杂度和部署难度;训练细节部分缺失,不利于完全复现;论文中承认对低资源语言的适应性是一个挑战。

表1:在测试集上的主观与客观对比结果

模型MOS-N ↑MOS-S ↑DNSMOS ↑EMO-SIM ↑WER ↓
PromptStyle2.674 ± 0.1452.420 ± 0.1473.680.52917.92%
PromptTTS2.920 ± 0.1372.601 ± 0.1483.650.5884.38%
CosyVoice3.240 ± 0.1383.028 ± 0.1493.770.6356.10%
CosyVoice23.920 ± 0.1123.885 ± 0.1163.830.7145.71%
EmoVoice-PP3.694 ± 0.1233.594 ± 0.1283.870.6138.56%
HD-PPT (Ours)4.108 ± 0.1054.167 ± 0.1033.840.7535.18%

12. Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization

🔥 8.0/10 | 前25% | #语音合成 | #扩散模型 #强化学习 | #扩散模型 #强化学习

👥 作者与机构

  • 第一作者:Jiacheng Shi(College of William & Mary)
  • 通讯作者:未明确说明(论文未明确指定通讯作者,但根据邮箱{jshi12, hdu02, ygao18}@wm.edu 推断,作者可能来自同一实验室)
  • 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Yangfan He(University of Minnesota - Twin Cities)、Y. Alicia Hong(George Mason University)、Ye Gao(College of William & Mary)

💡 毒舌点评

本文最亮眼的地方在于其核心洞察:在扩散模型中,直接将终点偏好传播到中间步骤是“有缺陷的假设”,并为此设计了优雅的“逐步对齐”框架(EASPO),这确实为情感等需要时序精细控制的任务提供了新的思路。然而,其提出的EASPM评分模型重度依赖CLEP在特定情感数据集上的微调,其泛化能力,尤其是在不同说话人、语言和更复杂情感维度上的表现,是最大的潜在短板,且实验仅在英语数据集上验证。

📌 核心摘要

  1. 要解决的问题:现有的情感文本到语音(TTS)方法,尤其是在扩散模型中,依赖粗粒度的情感标签或代理分类器,且仅在生成终点提供反馈,导致对情感和韵律等时变信号的监督信号稀疏、不充分。
  2. 方法核心:提出了一种称为“情感感知逐步偏好优化”(EASPO)的后训练框架。其核心是引入一个时间感知的“情感感知逐步偏好模型”(EASPM),该模型在扩散去噪的每一步,对一组候选中间语音状态进行情绪表现力打分,构建出“赢家-输家”偏好对。然后,通过优化扩散模型的策略,使其在每个步骤的对数似然比差异与EASPM提供的奖励差异相匹配,从而实现逐步、密集的情感对齐。
  3. 新意之处:与传统DPO类方法(偏好仅附着在终点并假设中间状态同样有效)不同,EASPO摒弃了该有缺陷的假设。它通过在每个去噪步从同一潜在状态生成候选集,并直接比较其情绪表现,实现了“局部、时间条件化”的偏好学习。EASPM作为专门针对带噪中间态训练的奖励模型,是实现这一密集监督的关键。
  4. 主要实验结果:在ESD数据集上,EASPO在情感相似度(Emo SIM)、韵律相似度(Prosody SIM)、感知自然度(UTMOS)等多个客观指标和主观评测(MOS, Emo MOS等)上均优于7个现有基线。例如,Emo SIM达到99.15%,比最强基线CosyVoice高2.07%;主观情感表达度(MoS EC)达到4.04,高于CosyVoice2的3.83。消融实验验证了EASPM中时间条件、随机选择策略以及候选池大小等设计的有效性。
  5. 实际意义:该工作为细粒度、可控的情感语音生成提供了一种新的有效范式。它推动了语音合成从“模仿标注”向“符合人类偏好”的对齐范式发展,对构建更具表现力和同理心的对话代理、辅助工具和内容创作有直接价值。
  6. 主要局限性:1) 计算开销增加,因为每一步需要采样多个候选并评分;2) EASPM的性能高度依赖于其微调数据(MSP-Podcast)的质量和覆盖范围,可能对未见过的情感、说话人或语言泛化能力有限;3) 实验仅在单一英文数据集上进行,跨语言和多说话人的普适性未验证。

13. Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration

🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #基准测试 #自监督学习

👥 作者与机构

  • 第一作者:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室)
  • 通讯作者:Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院)
  • 作者列表:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Bing Han(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Hui Wang(南开大学),Long Zhou(腾讯混元),Wei Wang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Mingyu Cui(腾讯混元),Xu Tan(腾讯混元),Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) *注:原文作者姓名“Mingyu Cui”在页脚签名中显示为“Mingyu Cui”,但参考文献中显示为“Mingyu Cui”。此处按页脚信息记录。

💡 毒舌点评

这篇论文最大的价值在于为“韵律多样性”这个有点玄学的概念建立了一套扎实的客观评估体系(DS-WED指标+ProsodyEval数据集),让社区有了统一的比较标尺,而不仅仅是依赖主观听感或片面的F0/MCD指标。但必须指出,其构建的“黄金标准”ProsodyEval数据集仅覆盖了7个模型和英语语音,其泛化到更多语言、更嘈杂或更具表现力场景的有效性尚未验证,这是其作为通用基准的主要短板。

📌 核心摘要

  1. 问题:零样本语音合成(TTS)中韵律多样性(即同一文本不同合成结果间的语调、节奏等差异)对自然表现力至关重要,但缺乏与人类感知高度相关、且能全面捕捉韵律信息的客观评估指标。
  2. 方法核心:提出ProsodyEval人类标注数据集和DS-WED(离散语音加权编辑距离)指标。DS-WED首先使用自监督模型(如HuBERT)对语音进行离散化得到语义token序列,然后通过计算两段语音token序列间的加权编辑距离来量化韵律差异。
  3. 创新点:1) DS-WED相比传统声学指标(如log F0 RMSE、MCD)与人类评分相关性显著更高;2) 提供了首个系统性的零样本TTS韵律多样性基准测试;3) 发现了生成范式(AR vs NAR)、持续时间控制、强化学习(DPO)等因素对韵律多样性的关键影响。
  4. 实验结果:在ProsodyEval数据集上,DS-WED与人类平均意见分(PMOS)的平均皮尔逊相关系数达0.77,远高于MCD(0.66)和log F0 RMSE(0.30)。基准测试显示,自回归(AR)模型在韵律多样性上普遍优于基于流匹配的非自回归(NAR)模型,但MaskGCT(掩码生成模型)表现突出。此外,DPO对齐会降低韵律多样性(例如CosyVoice 2下降18.8%)。具体数据见下表:

表1:不同指标与人工评分PMOS的相关性对比(平均皮尔逊系数及其95%置信区间)

指标PMOS相关性
DS-WED0.77 [0.73, 0.81]
MCD0.66 [0.58, 0.73]
log F0 RMSE0.30 [0.19, 0.40]

表2:零样本TTS系统韵律多样性基准测试(LibriSpeech test-clean, DS-WED微平均得分↑)

系统生成范式DS-WED Avg.
MaskGCTNAR (MGM)139.75
CosyVoice 2AR134.34
XTTS-v2AR127.84
CosyVoiceAR120.59
ZipVoiceNAR (FM)114.52
E2 TTSNAR (FM)84.91
F5-TTSNAR (FM)79.59
  1. 实际意义:为TTS系统开发与评估提供了更可靠、更高效的韵律多样性度量工具,揭示了影响模型表现的关键因素,有助于指导未来模型设计(如改进NAR模型的时长建模)。
  2. 主要局限性:1) DS-WED的有效性目前仅在英语数据上验证;2) 作为评估指标,其本身不提升生成模型的质量;3) 基准测试覆盖的模型和场景仍有限。


14. DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis

🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #零样本

👥 作者与机构

  • 第一作者:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心)
  • 通讯作者:Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心)
  • 作者列表:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yu Gu(未说明)、Kun Wei(未说明)、Hui-Peng Du(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Zhen-Hua Ling(中国科学技术大学 国家语音与语言信息处理工程研究中心)

💡 毒舌点评

亮点在于将语音-环境分离与流匹配音频填充相结合,首次在零样本框架下实现了对时间变化背景环境的独立控制,思路清晰且实验验证充分。短板是高度依赖预训练的语音-环境分离(SES)模块的性能,且推理时要求提供“纯”环境提示音频的假设在真实场景中可能较难满足,限制了其通用性。

📌 核心摘要

  1. 问题:现有的零样本语音合成(TTS)系统难以在合成语音时,独立且可控地改变背景声学环境(如从安静房间切换到嘈杂街道),特别是对于时间变化的环境。
  2. 方法核心:本文提出DAIEN-TTS,一个基于解纠缠音频填充的环境感知零样本TTS框架。其核心是引入一个预训练的语音-环境分离(SES)模块,将带环境音的语音分解为干净语音和环境音频的梅尔谱。在训练时,对两者分别进行随机掩码,以干净语音谱、环境谱(部分掩码)和文本为条件,通过流匹配模型填充被掩码的完整环境语音梅尔谱。推理时,可使用任意说话人提示和任意环境提示进行合成。
  3. 创新点:a) 首次提出一个能独立控制音色和时间变化背景环境的零样本TTS框架。b) 设计了基于交叉注意力的环境条件注入方案,并在推理时采用双无分类器指导(DCFG)和信噪比(SNR)自适应策略来增强可控性。c) 实验表明该方法在自然度、说话人相似度和环境保真度上均表现良好。
  4. 主要实验结果:在SeedTTS测试集上,当使用静音环境提示时,DAIEN-TTS的词错率(WER)为1.93%,说话人相似度(SIM-o)为0.60,自然度(MOS)达3.84。当使用背景环境提示合成环境语音时,WER为2.83%,SIM-o为0.55,MOS为3.78,环境相似度(ESMOS)为3.65,均接近或达到人类录音水平。关键结果如下表所示(摘自论文Table 1):
模型WER(%) ↓SIM-o ↑MOS ↑SSMOS ↑ESMOS ↑
场景:静音环境提示
Human (上界)2.140.733.913.72-
F5-TTS (Clean Spk. Prompt)2.300.583.803.60-
F5-TTS (Env. Spk. Prompt)2.870.493.092.92-
DAIEN-TTS1.930.603.843.64-
场景:背景环境提示
Human + Environment (上界)2.800.703.863.813.72
DAIEN-TTS2.830.553.783.733.65
  1. 实际意义:该技术为有声读物、虚拟现实、游戏等需要生成特定背景环境语音的场景提供了新的解决方案,增强了合成语音的表现力和沉浸感。
  2. 主要局限性:a) 框架性能严重依赖预训练SES模块的分离质量,若分离不佳会直接影响合成效果。b) 训练和评估均基于预设的“干净语音-环境音频”配对数据,对于现实世界中无法获得纯净环境音的复杂场景,其适用性有待验证。c) 推理时要求提供纯环境音频提示,这在实际应用中可能不便获取。

15. BridgeCode: A Dual Speech Representation Paradigm for Autoregressive Zero-Shot Text-to-Speech Synthesis

🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #模型评估

👥 作者与机构

  • 第一作者:Jingyuan Xing(华南理工大学)、Mingru Yang(华南理工大学) (论文注明两者共同第一作者)
  • 通讯作者:Xiaofen Xing(华南理工大学)、Xiangmin Xu(佛山大学) (论文标注†)
  • 作者列表:Jingyuan Xing(华南理工大学)、Mingru Yang(华南理工大学)、Zhipeng Li(华南理工大学)、Xiaofen Xing(华南理工大学)、Xiangmin Xu(佛山大学,华南理工大学)

💡 毒舌点评

亮点在于其提出的“双表示”范式巧妙地将离散token的生成效率与连续特征的高质量重建相结合,有效缓解了自回归TTS中经典的“速度-质量”矛盾,并在实验中取得了目前最低的token生成率。短板是所有实验仅在英语LibriTTS一个数据集上进行,虽然方法具有通用性,但缺乏多语言或跨领域(如情感、唱歌)的验证,其真实泛化能力尚待证明。

📌 核心摘要

  1. 要解决什么问题:针对基于自回归(AR)的零样本文本到语音合成(TTS)中存在的两个关键问题:(i) 生成速率与合成质量之间固有的权衡矛盾;(ii) 直接沿用文本模型训练范式导致的语音监督信号失配。
  2. 方法核心是什么:提出BridgeTTS框架,其核心是BridgeCode双语音表示范式。该范式包含稀疏的离散token和稠密的连续特征两种表示,并设计了SparseBridge和DenseBridge两个对称的桥接模块进行双向转换。AR模型在生成时只需预测低帧率的稀疏token,再通过DenseBridge恢复出高信息量的连续特征用于高质量合成。同时,训练中引入特征损失(Feature Loss)与token损失联合优化,提供更细粒度的监督。
  3. 与已有方法相比新在哪里:不同于以往AR-TTS要么降低token率牺牲质量,要么增加token信息量牺牲效率的单一思路,BridgeCode首次提出利用“稀疏token生成+连续特征重建”的混合范式,在提升效率的同时保证质量。此外,通过联合token级和特征级的损失函数,解决了AR模型训练中的监督信号失配问题。
  4. 主要实验结果如何:在LibriTTS数据集上,BridgeTTS取得了最低的Token Rate(10Hz),相较于基线CosyVoice(25Hz)和GPT-Talker(50Hz)大幅降低。同时,其词错误率(WER)在测试集上为4.9%,显著低于VALL-E(18.5%)、UniAudio(12.9%)和GPT-Talker(16.4%),仅略高于CosyVoice(8.0%)。在语音质量(QMOS)和说话人相似度(SMOS)上,BridgeTTS与最优的CosyVoice表现相当或略低,但均优于大多数基线。消融实验证明,DenseBridge和特征损失对性能有关键贡献。合成速度(RTF)相比基线AR模型提升了约63%(0.37x)。
模型Token Rate (↓)WER (↓)SMOS (↑)QMOS (↑)UTMOS (↑)
LibriTTS Development Set
GT/2.3%4.41 ± 0.114.41 ± 0.134.258
CosyVoice25Hz6.8%4.13 ± 0.124.36 ± 0.124.253
BridgeTTS (Ours)10Hz3.4%4.07 ± 0.114.15 ± 0.094.050
LibriTTS Test Set
VALL-E50Hz18.5%3.64 ± 0.123.49 ± 0.112.728
CosyVoice25Hz8.0%4.12 ± 0.084.29 ± 0.114.148
BridgeTTS (Ours)10Hz4.9%4.01 ± 0.124.11 ± 0.133.894
模型Token Rate (↓)WER (↓)SMOS (↑)QMOS (↑)UTMOS (↑)
BridgeTTS10Hz4.9%4.01 ± 0.124.11 ± 0.133.894
-w/o DenseBridge10Hz13.8%3.74 ± 0.113.74 ± 0.123.443
-w/o Lfeatures10Hz7.1%3.92 ± 0.133.96 ± 0.123.471
系统RTF (↓)Token Rate (↓)WER (↓)SMOS (↑)QMOS (↑)UTMOS (↑)
Baseline AR50Hz9.8%---
BridgeTTS0.37×10Hz4.9%+0.12+0.09+0.43
  1. 实际意义是什么:该方法为构建更高效、高质量的零样本TTS系统提供了新思路。通过降低自回归生成的计算需求,有助于在资源受限的设备或需要实时响应的场景中部署先进的语音合成技术。
  2. 主要局限性是什么:目前所有实验仅在英文LibriTTS数据集上进行,对于多语言、跨领域的泛化能力未做探讨。此外,虽然对比了多种基线,但未与最新(如2025-2026)的一些代表性工作进行直接比较。

16. Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

🔥 8.0/10 | 前10% | #语音合成 | #扩散模型 | #多模态模型 #自回归模型

👥 作者与机构

  • 第一作者:Xinlu He(Worcester Polytechnic Institute, Amazon AGI)
  • 通讯作者:未说明
  • 作者列表:Xinlu He*(Worcester Polytechnic Institute, Amazon AGI), Swayambhu Nath Ray(Amazon AGI), Harish Mallidi(Amazon AGI), Jia-Hong Huang(Amazon AGI), Ashwin Bellur(Amazon AGI), Chander Chandak(Amazon AGI), M. Maruf(Amazon AGI), Venkatesh Ravichandran(Amazon AGI)

💡 毒舌点评

亮点在于其高效的双头架构设计和两阶段训练策略,成功将连续token扩散“塞进”了自回归框架并取得了SOTA的自回归TTS结果,参数效率极高。短板则是开源精神的缺失,在声称“仅用于研究”的同时,却未提供任何模型、代码或数据,让“复现”成了镜花水月。

📌 核心摘要

  1. 问题:当前基于多模态大语言模型(MLLM)的语音合成(TTS)方法依赖离散语音token,会丢失连续语音信号中宝贵的细粒度声学细节,限制合成自然度与保真度。
  2. 方法核心:提出一种双头架构,在自回归MLLM骨干网络上同时添加“语言模型头”和“连续token扩散头”。扩散头在帧级别(25Hz)自回归地生成连续的语音嵌入表示,而语言模型头负责预测语音的起止标记,以实现变量长度合成。
  3. 创新点:首次将严格的逐帧连续token扩散直接集成到自回归MLLM中,避免了量化瓶颈。为解决训练中的暴露偏差和联合优化不稳定问题,提出了掩码训练和两阶段训练策略(第二阶段冻结LLM以稳定扩散头输入分布)。
  4. 实验结果:在LibriSpeech(PC)test-clean上评估,该方法在自回归模型中达到SOTA性能:词错率(WER)1.95%,说话人相似度(SIM-R)0.54, UTMOS 4.00, MOS 3.77。两阶段训练相比单阶段训练,实现了46%的相对WER降低。该模型(约160M参数)性能优于多个更大规模的基线模型(如VALL-E, MegaTTS, Voicebox)。
    • 主要对比结果(表1):
      方法建模方式Token类型模型大小WER(%)↓SIM↑UTMOS↑MOS↑
      Ground Truth----2.840.694.16
      VALL-E†AR+NAR离散.4B6.110.473.684.38
      Mega TTS†AR+NAR连续.5B2.320.534.024.06
      Proposed MethodAR连续.2B1.950.544.003.77
  5. 实际意义:证明了将连续语音生成与自回归建模相结合的有效性,为构建支持语音、文本等多任务的统一MLLM基础模型提供了一条可行路径。
  6. 主要局限性:1)方法依赖特定的预训练VAE(用于声学表示)和自回归LLM骨干(OPT-125M);2)实验仅在英语有声书数据(LibriVox/LibriSpeech)上验证,对其他语言、说话风格的泛化性未测试;3)论文未提供代码、模型等开源资源,限制了技术的快速复现与验证。

17. Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum

🔥 8.0/10 | 前25% | #语音合成 | #生成模型 | #信号处理 #实时处理

👥 作者与机构

  • 第一作者:Mohammed Salah Al-Radhi(布达佩斯理工大学电信与人工智能系)
  • 通讯作者:未说明
  • 作者列表:Mohammed Salah Al-Radhi(布达佩斯理工大学电信与人工智能系),Riad Larbi(布达佩斯理工大学),Mátyás Bartalis(布达佩斯理工大学电信与人工智能系),Géza Németh(布达佩斯理工大学电信与人工智能系)

💡 毒舌点评

这篇论文的亮点在于它没有“头痛医头”,而是构建了一个从F0引导到相位预测的统一框架,直接针对传统声码器的两大顽疾(音高不准、相位丢失),实验也做得扎实,对比了多个强基线。不过,它对F0的依赖完全建立在外部提取器(Harvest)上,论文并未讨论F0预测不准时的鲁棒性,这在与真实TTS管线对接时可能是个隐患;另外,虽然声称有潜力用于实时应用,但并未提供任何关于模型复杂度、推理速度的量化分析。

📌 核心摘要

这篇论文旨在解决神经声码器中存在的音高(F0)建模能力有限和相位重建不准确的问题,这两个问题直接影响合成语音的音高保真度和自然度。其核心方法是提出一个统一的神经声码器框架,包含三个关键组件:1)一个由F0引导的谐波注意力机制,用于在编码阶段增强对有声段和谐波结构的建模;2)一个直接预测复数频谱(实部和虚部)的解码器,以实现相位相干的波形重建;3)一个多目标感知训练策略,结合了对抗损失、频谱损失和相位感知损失。与依赖梅尔谱、相位信息丢失或需要后处理的现有方法(如HiFi-GAN, AutoVocoder)相比,该工作的创新点在于首次将F0引导的注意力机制与直接复数谱预测结合在一个端到端的框架中,从而同时、显式地提升音高精度和相位连贯性。在LJSpeech和VCTK数据集上的实验表明,该方法在所有评估指标上均优于HiFi-GAN和AutoVocoder等基线:F0均方根误差(F0-RMSE)相比HiFi-GAN降低了22%,浊音/清音错误率降低了18%,平均意见得分(MOS)提升了0.15分。其实际意义在于为更自然、更具表现力的语音合成(如情感语音、语音克隆)提供了更强大的声码器基础。主要局限性在于F0信息依赖外部算法提取,且论文未评估模型在F0预测不准时的��棒性,也未充分验证其声称的实时处理能力。

论文关键数据表

系统F0 RMSE ↓V/UV Error (%) ↓MCD ↓MOS ↑
Original---4.6
Anchor34.811.51.212.1
HiFi-GAN21.67.90.844.2
AutoVocoder19.77.10.794.3
Vocos20.57.30.814.1
Proposed16.86.50.724.45

18. Optimizing Speech Language Models for Acoustic Consistency

🔥 8.0/10 | 前25% | #语音合成 | #自监督学习 | #语音大模型 #鲁棒性

👥 作者与机构

  • 第一作者:未明确说明,但根据论文署名顺序和邮箱格式,Morteza Rohanian可能是第一作者。其机构为:苏黎世大学(University of Zurich)、ETH AI Center。
  • 通讯作者:未明确说明。两位作者的邮箱后缀均为@uzh.ch,可能共同负责。
  • 作者列表:Morteza Rohanian(苏黎世大学、ETH AI Center)、Michael Krauthammer(苏黎世大学、ETH AI Center)。

💡 毒舌点评

这篇论文的亮点在于其“纯粹”的实验哲学:通过精心设计的语言模型训练策略(语义初始化、一致性增强、辅助损失)来解决声学一致性问题,而完全不依赖更复杂的模型架构或编码器改动,这为研究语音LM的内在能力提供了干净的对比视角。短板在于,虽然证明了“更小但更专注”的模型在一致性上能打败“更大但更泛化”的模型,但对于“语义-声学对齐”这一同样关键的能力,其交错训练方案带来的提升幅度有限(与人类仍有明显差距),论文对此的深入分析和改进方案略显不足。

📌 核心摘要

  1. 解决什么问题:针对语音语言模型在生成语音时,难以保持说话人身份、性别、情感、背景环境等声学属性跨时间一致性的挑战。
  2. 方法核心:提出CAST方法,在不修改冻结的语音编解码器和模型推理路径的前提下,仅在语言模型侧进行适配。主要包括:使用自监督模型(HuBERT)的聚类中心初始化语音token嵌入,并加入对齐损失;训练时采用多速率稀疏化(Thinning)和跨段擦除(Span Erasure)增强鲁棒性;引入延迟的粗粒度(Coarse)和细粒度(Next-Code)辅助损失,引导模型先规划宏观结构再预测细节。
  3. 新在哪里:相比之前引入多阶段解码器、适配器或监督头的复杂架构改进,CAST将优化焦点严格限定在语言模型的嵌入空间和训练目标上,使得模型对声学一致性的贡献更容易被隔离和分析。同时,论文系统研究了“纯语音训练”与“文本-语音交错训练”对模型能力的不同影响,揭示了声学稳定性与语义基础之间存在的可控权衡。
  4. 主要实验结果:0.7B参数的纯语音模型在SALMON声学一致性基准上表现最佳(例如,说话人一致性90.8%),超越了参数量达7B的基线模型(如SpiritLM 81.0%)。交错训练虽然降低了声学一致性,但提升了语义(sWUGGY从65.6%提升至73.7%)和语义-声学对齐能力。消融实验证明辅助损失对维持说话人/性别等身份一致性至关重要。
  5. 实际意义:证明了通过巧妙的语言模型训练设计,可以在保持架构简单和推理高效的同时,显著提升语音生成的鲁棒性和一致性,为部署更可靠的语音交互应用(如对话、旁白生成)提供了技术路径。
  6. 主要局限性:研究局限于英语朗读/对话数据,在更复杂、噪声更大或涉及跨语言场景下的泛化能力未被验证。此外,尽管证明了权衡的存在,但尚未找到一种能同时大幅提升声学一致性和语义-声学对齐的方法。

19. NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with Neighborhood Consistency Flow

🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #多语言 #实时处理

👥 作者与机构

  • 第一作者:Yan Shi(平安科技)
  • 通讯作者:未说明(提供了两个邮箱,但未明确标注通讯作者)
  • 作者列表:
    • Yan Shi*(平安科技)
    • Jin Shi(平安科技)
    • Minchuan Chen*(平安科技)
    • Ziyang Zhuang(平安科技)
    • Peng Qi(上海交通大学重庆人工智能研究院)
    • Shaojun Wang(平安科技)
    • Jing Xiao(平安科技)

💡 毒舌点评

亮点:这篇论文精准地抓住了流匹配TTS在少步推理下的两个痛点——轨迹不稳定性与CFG失效,并给出了数学上自洽、工程上有效的解决方案(NCF损失和嵌入式指导),理论结合实践做得不错。短板:实验部分虽然对比了F5-TTS和CosyVoice,但在多语言基准测试上,与顶尖的自回归模型(如Seed-TTS)在自然度(UTMOS)上仍有差距,论文对此讨论不足,可能影响其在高质量合成领域的说服力。

📌 核心摘要

  1. 问题:基于流匹配的文本到语音(TTS)模型在实际应用中受制于缓慢的推理速度,且经典的分类器自由引导(CFG)方法与少步采样模型存在理论不兼容,导致在少步推理时难以平衡质量与效率。
  2. 方法核心:提出NCF-TTS框架。核心是引入邻域一致性流(NCF)作为局部传输正则化器,强制要求平均速度场满足可加性,从而稳定大步长采样。其次,提出嵌入式指导目标,在训练阶段将条件与无条件监督统一,解决了CFG与少步模型的兼容性问题,使得推理时无需进行两次前向传播。
  3. 新颖性:不同于以往的蒸馏(如一致性模型)或离散步长约束(如快捷模型),NCF从连续时间积分的角度建立了一个统一的正则化框架。嵌入式指导将CFG从推理时调整转变为训练时正则化,是实现无CFG推理的关键。
  4. 实验结果:在中文和英文多语言数据集上进行评估。NCF-TTS在少步推理下表现优异,例如4步推理时英文WER仅1.82%,中文SIM-o为0.67,接近32步推理的质量(英文WER 1.38%,中文SIM-o 0.76)。相比基线F5-TTS,NCF-TTS在相同步数下质量更优,且在4步推理时推理速度(RTF 0.01)比F5-TTS的16步推理(RTF 0.14)快14倍。消融实验表明移除NCF会导致WER显著上升(从1.67%到6.23%)。
  5. 实际意义:实现了高质量、低延迟的TTS,为实时语音助手、交互式应用等场景提供了有力工具。
  6. 主要局限性:尽管在客观指标上接近最优,但在主观自然度(UTMOS/MOS)上与顶尖的自回归模型(如Seed-TTS、CosyVoice2)相比仍有一定差距,论文未深入探讨此差异的原因。

20. ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference

🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #自监督学习 #零样本

👥 作者与机构

  • 第一作者:Chunyat Wu(香港中文大学)
  • 通讯作者:未说明(论文中未明确标注通讯作者)
  • 作者列表:Chunyat Wu, Jiajun Deng, Zhengxi Liu, Zheqi Dai, Haolin He, Qiuqiang Kong(所有作者均来自香港中文大学,香港,中国)

💡 毒舌点评

亮点:这篇论文最大的“工程巧思”在于发现了非自回归流式解码器中,条件编码器的输出在不同去噪步之间可以安全地重复使用,从而在几乎不损失质量的前提下将推理速度提升了数倍(RTF从0.31降至0.09),这个发现极具实用价值。短板:虽然“语义对齐器”被设计为核心,但论文对其内部学习到的对齐质量缺乏直接、可视化的分析(例如对齐矩阵图),其对合成语音“时序稳定性”的贡献更多是间接推断,说服力可以更强。

📌 核心摘要

  1. 问题:当前基于扩散/流匹配的非自回归TTS系统面临两大挑战:1)文本与语音之间复杂、灵活的对齐关系难以有效建模;2)迭代去噪过程带来高昂的计算开销,推理速度慢。
  2. 方法:本文提出ARCHI-TTS,一种非自回归架构。核心方法包括:a) 语义对齐器:通过一个Transformer编码器,将文本特征与长度等于目标语音帧数的、可学习的“掩码嵌入”序列进行交互,从而端到端地学习出对齐的语义表征,无需显式时长标注。b) 高效推理策略:在条件流匹配的解码器中,将负责编码文本、说话人、参考音频等条件的“条件编码器”部分的输出,在多个去噪步骤间共享(重用),避免了每一步都重新计算,从而大幅提升推理效率。
  3. 创新:与E2-TTS、F5-TTS等通过填充字符来实现隐式对齐的方法不同,ARCHI-TTS显式设计了一个对齐模块。与需要额外蒸馏训练(如DMDSpeech)的加速方法不同,本文的加速策略是训练无关的,直接来自对模型架构特性的洞察。
  4. 主要实验结果:
    • 在LibriSpeech-PC test-clean上,WER为1.98%,SSIM为0.70,RTF为0.21(单卡3090)。
    • 在SeedTTS test-en上,WER为1.47%,SSIM为0.68。
    • 在SeedTTS test-zh上,WER为1.42%,SSIM为0.70。
    • 使用75%共享比例时,在NFE=32下,WER仍保持1.98%,RTF降至0.09。
    • MOS主观评测中,其自然度和说话人相似度与F5-TTS和CosyVoice2处于竞争水平。
模型参数量训练数据WER(%)↓SSIM↑RTF↓测试集
F5-TTS336M100K Multi.2.420.660.31LibriSpeech-PC test-clean
ARCHI-TTS289M100K Multi.1.980.700.21LibriSpeech-PC test-clean
F5-TTS--1.830.67-SeedTTS test-en
ARCHI-TTS--1.470.68-SeedTTS test-en
DiTAR--1.020.75-SeedTTS test-zh
ARCHI-TTS--1.420.70-SeedTTS test-zh

架构图 (图1:ARCHI-TTS整体架构概览图,展示了语义对齐器、条件编码器、速度解码器及数据流。)

推理效率图 (图2:WER和SSIM(左)、RTF(右)随条件编码器输出共享比例的变化曲线。)

  1. 实际意义:本文提供了一个高效、高质量的非自回归TTS新方案。其“低令牌率”表征和“训练无关的推理加速”策略,对于降低TTS系统的部署成本(计算、延迟)具有直接的工程价值,推动了非自回归模型在实际应用中的可行性。
  2. 主要局限性:a) 对语义对齐器的具体作用机制(如内部对齐动态)缺乏深入可视化分析。b) 尽管在自动指标上领先,但在主观MOS评测中,其优势并不显著,甚至在某些维度上略低于对比模型。c) 论文未与最新的非自回归模型DiTAR在所有指标上进行全面对比(如SeedTTS test-zh的WER,DiTAR的1.02优于ARCHI-TTS的1.42)。


21. EMG-to-Speech with Fewer Channels

7.5/10 | 前25% | #语音合成 | #多任务学习 | #少样本 #数据增强

👥 作者与机构

  • 第一作者:Injune Hwang (首尔大学 智能与信息学系)
  • 通讯作者:Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目)
  • 作者列表:Injune Hwang (首尔大学 智能与信息学系), Jaejun Lee (首尔大学 智能与信息学系), Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目)

💡 毒舌点评

论文最大的亮点在于实验设计的系统性,通过贪心消除、穷举子集和音素分析三管齐下,将“哪些通道更重要”这个问题从工程选择上升到了对肌肉运动互补性的理解层面,其提出的“通道dropout微调”方案也切实有效。然而,所有结论和实验均局限于单说话人公开数据集,这使得其“推动实用化”的宣称在迈向真实、多变的用户场景时显得说服力不足,且模型架构本身并未跳出Gaddy et al. [13] 的框架。

📌 核心摘要

  1. 解决问题:表面肌电图(EMG)驱动的无声语音接口性能高度依赖传感器通道数量和位置,但减少通道会导致性能下降。本文旨在系统研究通道重要性,并缓解通道减少带来的性能损失。
  2. 方法核心:采用基于卷积和Transformer的EMG编码器模型,通过预测梅尔谱图(语音合成)和音素标签(多任务学习)进行预训练。核心策略是在预训练时引入通道dropout(随机屏蔽部分通道),然后在减少通道的子集上进行微调。
  3. 新意:(1) 通过贪心消除和穷举评估所有4通道组合(70种),系统量化了单个通道及通道组合的重要性,揭示了通道间的互补性;(2) 进行了音素级别的消融分析,将通道作用与具体语音学范畴(如擦音、塞音)关联;(3) 提出并验证了基于通道dropout的预训练-微调策略优于从头训练。
  4. 主要结果:
    • 4通道子集的最佳WER为47.2%(通道{1,3,5,6}),优于贪心选择的{1,2,3,4}(48.1%)。各通道在所有4通道子集中出现的平均WER排名为:3(51.4) < 2(52.3) < 1(52.6) < 5(52.8) < 6(53.1) < 4(53.7) < 7(53.8) < 8(54.8)。
    • 音素分析表明,去除不同通道对不同类别音素影响显著(如去除通道8对双唇音影响最大,去除通道7对高前元音影响最大)。
    • 在4-6通道设置下,微调模型(基于8通道预训练权重)的WER一致性地低于从头训练的模型。例如,对于4通道最佳子集,微调(dropout p=0)WER为47.2%,而从头训练约为49.5%(根据图3估算)。
  5. 实际意义:证明了通过智能的训练策略(预训练+通道dropout+微调),可以在使用更少、更少侵入性传感器时,保持可接受的语音重建性能,有助于开发更轻便、实用的无声语音设备。
  6. 主要局限性:(1) 实验仅在单一说话人、单一数据集(Gaddy et al. [5])上验证,结论对其他说话人或场景的泛化能力未知;(2) 最佳通道子集和dropout概率对具体数据集和任务敏感,缺乏普适性指导;(3) 未与近期其他先进的EMG-to-speech模型(如基于扩散的模型)进行对比。


7.5/10 | 前25% | #语音合成 | #模块化架构 | #音视频 #扩散模型

👥 作者与机构

  • 第一作者:Hangyu Xiong(丹麦技术大学 (DTU), Denmark)
  • 通讯作者:Qingzheng Hu(INTI International University, Malaysia)
  • 作者列表:
    1. Hangyu Xiong(丹麦技术大学 (DTU), Denmark)
    2. Jinyi Zhang(加州大学洛杉矶分校 (UCLA), USA)
    3. Zheng Wang(清华大学, China)
    4. Tianlun Pan(西交利物浦大学, China)
    5. Qingzheng Hu(INTI International University, Malaysia)

💡 毒舌点评

亮点:该论文直击3D数字人“死鱼眼”这一让用户体验崩盘的具体痛点,并提出了一套基于生理学原理、可即插即用(无需重训练)的眼部动态增强方案,效果量化显著(眨眼真实度MOS提升2.5分),这种“问题-方案-验证”的链条非常清晰且实用。
短板:作为一篇方法框架论文,其核心的眼部增强模块是建立在现有开源工具(SadTalker, FaceVerse等)之上的“魔改”,更像是一个精巧的工程集成方案,缺乏在底层生成模型或表征上的原始创新;同时,论文对如何获取其构建的评估数据集(40个合成视频)语焉不详,且完全未开源核心代码,使得其宣称的“可复现性”大打折扣。

📌 核心摘要

  1. 解决的问题:当前3D说话头像生成存在两大瓶颈:一是生成管道碎片化、效率低且难复现;二是生成的头像眼部动态僵硬,呈现“死鱼眼”状态,严重损害真实感和可信度。
  2. 方法核心:提出“VividTalker”统一框架,包含两个协同部分:a) 一个由七个模块(如Stable Diffusion XL生成肖像,Coqui-TTS合成语音,SadTalker生成口型等)组成的模块化管道,旨在提升效率和可维护性;b) 一个生理性眼部动态增强模块,通过数学建模生成扫视轨迹、头眼协调动作和符合生理节奏(15-20 BPM)的眨眼信号,并直接注入到3DMM(三维人脸形变模型)的系数中。
  3. 创新之处:与现有方法相比,a) 提出了首个整合了扫视、头眼协调、自然眨眼等完整生理性眼部动态的通用框架,且无需重新训练网络;b) 通过模块化设计,在保持动画质量的同时,将管道运行时间缩短35.5%,内存占用降至最低。
  4. 主要实验结果:在自建的400秒多语言评估集上,与SadTalker等基线相比:
    • 效率:生成10秒视频耗时158秒(SadTalker为245秒,提升35.5%),内存仅7.2GB。
    • 眼部自然度:眨眼频率为16.8 BPM(符合人类对话节奏),头部-眼睛相关性为0.61,用户研究显示眨眼真实度MOS高达4.6(基线为2.1),整体偏好度达62%。
    • 保真度:唇音同步(SyncNet LSE-C)分数6.1,优于所有基线。
方法运行时间(秒)↓内存(GB)↓可复现多语言注视抖动(°)↓眨眼(BPM)头-眼相关性↓SyncNet LSE-C↑真实感MOS↑偏好度↑
Wav2Lip1208.2YY8.70.30.924.82.1±0.412%
SadTalker24512.4NY6.22.10.885.12.8±0.523%
FaceFormer28014.1NN7.11.80.915.32.6±0.419%
Audio2Head31015.6NY6.82.50.894.92.4±0.516%
Ours1587.2YY3.416.80.616.13.9±0.362%
  1. 实际意义:为构建更逼真、高效、可维护的3D数字人(用于虚拟助手、远程教育、元宇宙等)提供了一个有前景的模块化解决方案,特别是显著提升了数字人的情感表达和社交临场感。
  2. 主要局限性:框架高度依赖现有开源模块(如SadTalker, FaceVerse),其上限受限于这些模块本身的能力;眼部动态模型是基于统计规律的近似,缺乏与个体身份、情感状态的深层关联;论文未开源核心代码和评估数据集。


23. Real-Time Streaming MEL Vocoding with Generative Flow Matching

7.5/10 | 前25% | #语音合成 | #流匹配 | #流式处理 #实时处理

👥 作者与机构

  • 第一作者:Simon Welker (汉堡大学信息系信号处理组)
  • 通讯作者:未说明
  • 作者列表:Simon Welker (汉堡大学信息系信号处理组)、Tal Peer (汉堡大学信息系信号处理组)、Timo Gerkmann (汉堡大学信息系信号处理组)

💡 毒舌点评

本文成功地将前沿的生成式流匹配模型“塞”进了实时流式处理的严苛约束里,并拿出了一套从DNN架构到推理缓存的完整解决方案,这工程落地能力值得肯定。然而,其核心贡献在于优化而非范式革命,48ms的总延迟虽比扩散缓冲方案短得多,但对于追求极致低延迟的实时交互(如实时游戏语音)来说,可能仍非最优解。

📌 核心摘要

  1. 要解决什么问题:解决将梅尔频谱图实时流式地转换为高质量波形(即Mel声码)的问题,这是许多文本到语音(TTS)系统的关键环节,尤其适用于需要自然、实时交互的场景。
  2. 方法核心是什么:结合了基于生成流匹配的先驱工作(DiffPhase)和FreeV中利用梅尔滤波器伪逆算子初始化的思想,提出了MelFlow。核心是设计了一个帧因果(frame-causal)的生成式DNN,并配套一个无需增加额外算法延迟的高效缓存推理方案,实现了流式处理。
  3. 与已有方法相比新在哪里:据作者所知,这是首次探索基于扩散/流模型的流式Mel声码。与HiFi-GAN等非流式生成模型相比,它实现了实时流式处理能力;与传统的Diffusion Buffer方案相比,它实现了更低的算法延迟(32ms窗+16ms跳=48ms)。其提出的缓存推理方案是实现高效流式扩散/流推理的关键创新。
  4. 主要实验结果如何:在EARS-WHAM v2和LibriTTS数据集上,MelFlow(N=5步)在PESQ(4.12/3.97)和SI-SDR(-8.8/-14.5)等指标上显著优于16kHz HiFi-GAN(2.99/3.03, -29.9/-25.8)等强基线,同时保持了有竞争力的非侵入式质量指标。其N=25步版本(非流式)进一步提升了性能,接近或超越所有基线。在NVIDIA RTX 4080 Laptop GPU上,处理单帧的时间为 N×2.71ms,N=5时满足16ms帧移的实时要求。
  5. 实际意义是什么:为构建低延迟、高质量的实时对话式TTS系统提供了一个关键的流式声码器组件。其开源的代码和模型检查点将促进社区在实时生成式语音处理方面的研究与应用。
  6. 主要局限性是什么:模型参数量较大(27.9M),可能对边缘部署构成挑战;尽管实现了实时流式,但其48ms的总延迟仍然高于一些传统非生成式声码器;在非侵入式指标(如LSD, MCD)上并非最优,表明其在频谱精细结构恢复上可能与特定任务优化的模型有差距。

24. From Hallucination to Articulation: Language Model-Driven Losses for Ultra Low-Bitrate Neural Speech Coding

7.5/10 | 前25% | #语音合成 | #知识蒸馏 | #自监督学习 #低资源

👥 作者与机构

  • 第一作者:Jayeon Yi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院)
  • 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院)
  • 作者列表:Jayeon Yi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院)

💡 毒舌点评

亮点在于巧妙地利用了成熟的ASR模型(Whisper)和语音-文本对齐模型(TTR)内部蕴含的语言学知识,将其转化为端到端的训练损失,无需修改编解码器架构,这是一种高效且优雅的知识蒸馏范式。短板是评估体系几乎完全建立在单说话人数据集LJSpeech上,这大大削弱了其结论对于多说话人、多语言或复杂声学环境等更广泛场景的说服力。

📌 核心摘要

  1. 问题:在超低比特率(<0.4 kbps)的基于深度神经网络(DNN)的语音编解码器中,生成式解码器常因过度压缩的语义信息不足而产生“音素幻觉”,即合成出声学上干净但与原始语音语义不符的音素。
  2. 方法:提出两种语言模型驱动的损失函数(LM Loss)。第一种是ASR损失,利用预训练的Whisper模型,在无需地面真值文本的情况下,通过比较干净语音和解码语音触发的ASR内部语言模型的预测差异来指导编解码器训练。第二种是TTR损失,在需要时序文本时,利用冻结的WavLM和BERT模型,通过投影模块对齐解码语音的声学嵌入和文本的语义嵌入。
  3. 创新:与传统仅依赖自监督表示(如HuBERT)进行语义蒸馏的方法不同,本文方法直接利用专门为语音-文本关联任务预训练的模型知识,并以端到端损失形式作用于整个编解码器(包括解码器),且无需对编解码器架构进行任何修改或增加推理开销。
  4. 结果:在基于HuBERT和HiFi-GAN的参考编解码器上实验,187.5 bps下,ASR损失变体在语义7点MOS评分上达到6.55(基线SD为5.53),在Whisper WER上降至1.45%(基线SD为3.33%)。TTR损失变体也显著优于基线。所有LM损失变体在语义评估上显著优于语义蒸馏基线,在整体相似度上与之相当。具体数据见下表:
语义/声学速率 (bps)LM 损失WER(%)↓ (Whisper)WER(%)↓ (wav2vec2.0)PESQ↑WARPQ↑
187.5ASR1.454.561.350.289
TTR2.347.131.390.293
SD (基线)3.3311.21.420.295
S2 (阶段2)3.048.821.350.283
212.5ASR1.233.631.37.289
TTR1.535.251.44.293
SD (基线)2.117.041.46.295
S2 (阶段2)2.096.341.36.289
未编码-0.951.744.641.00

图3: 总体相似度(左)和语义7点MOS(右)主观评估结果。显示使用LM损失训练的模型在语义性能上显著优于其他模型。

  1. 意义:证明了利用预训练语言模型的知识可以更有效地指导超低比特率语音编解码器学习语义信息,拓宽了语义与声学质量之间的权衡范围,为解决音素幻觉问题提供了新思路。
  2. 局限:研究局限于单说话人英文数据集(LJSpeech),缺乏在多说话人、多语言或噪声环境下的验证;ASR损失依赖Whisper的内部语言模型,其质量可能影响上限;论文未探讨不同语言模型选择的影响。

25. SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

7.5/10 | 前25% | #语音合成 | #数据增强 | #数据集 #语音活动检测

👥 作者与机构

  • 第一作者:Bingsong Bai(北京邮电大学人工智能学院), Qihang Lu(北京邮电大学人工智能学院), Wenbing Yang(北京邮电大学人工智能学院)(论文标注为并列第一作者)
  • 通讯作者:Ya Li(北京邮电大学人工智能学院), Jun Gao(Hello Group Inc.)
  • 作者列表:
    • Bingsong Bai(北京邮电大学人工智能学院)
    • Qihang Lu(北京邮电大学人工智能学院)
    • Wenbing Yang(北京邮电大学人工智能学院)
    • Zihan Sun(Hello Group Inc.)
    • Yueran Hou(Hello Group Inc.)
    • Peilei Jia(Hello Group Inc.)
    • Songbai Pu(Hello Group Inc.)
    • Ruibo Fu(中国科学院自动化研究所)
    • Yingming Gao(北京邮电大学人工智能学院)
    • Ya Li(北京邮电大学人工智能学院)
    • Jun Gao(Hello Group Inc.)

💡 毒舌点评

这篇论文的亮点在于构建了一条颇为精巧的“副语言数据自动化工厂”流水线,把ASR投票、LLM“加标点”、语音转换“换音色”等技术模块组装得很有条理,并通过扎实的实验证明了用这套流水线生产出的数据集确实好用。其短板在于,这条流水线本身是“站在巨人肩膀上”的工程集成,核心的算法创新性相对有限;而且,用合成数据训练的模型,其生成的“副语言”是否真正捕捉到了人类情感的细微之处,可能还需在更复杂的交互场景中打个问号。

📌 核心摘要

  1. 要解决的问题:现有副语言(如笑声、叹息)数据集存在规模小、标注不精确、不公开或分布不平衡等问题,限制了更自然语音生成和副语言事件检测技术的发展。
  2. 方法核心:提出一个自动化的两阶段合成框架。第一阶段:使用多个ASR模型投票和VAD获得带精确时间戳的转录文本,再用大语言模型自动插入副语言标签。第二阶段:从公开音效库中选取对应类别的音频,通过语音转换技术调整其音色与目标说话人一致,然后将这些处理后的副语言片段插入到根据时间戳切分的正常语音片段中,合并成完整的语音。
  3. 与已有方法相比新在哪里:首次提出全自动、可扩展的大规模副语言数据集构建方法,摆脱了对昂贵人工标注或性能受限的ASR模型的依赖。合成的数据集(SynParaSpeech)规模大(118.75小时)、标注精确、类别相对平衡,且全部来源于自然对话语境。
  4. 主要实验结果:
    • 语音合成(Paralinguistic TTS):在CosyVoice2和F5-TTS模型上的实验表明,使用SynParaSpeech进行微调(SFT)相比于基线模型和在NVS数据集上微调,能显著提升副语言质量(PMOS得分提升0.95~1.42分),同时保持自然的音质和说话人相似度。采用直接偏好优化(DPO)训练策略能进一步提升性能。
    • 事件检测(Paralinguistic Event Detection):使用SynParaSpeech对Kimi Audio和Qwen 2.5 Omni进行提示调优,能有效提升模型对副语言事件的检测准确率(Acc.)和F1分数,且存在最优的提示样本数量(约5个)。
  5. 实际意义:为语音生成领域提供了宝贵的高质量公开数据资源,有助于训练出合成声音更生动、对话更自然的TTS模型;同时也为语音理解领域提供了有效资源,可提升模型对非语义声音事件的感知和推理能力。
  6. 主要局限性:数据集是通过自动化流水线合成的,其自然度和情感真实性可能与真实人类表达存在差异,可能引入数据偏差。此外,方法在合成过程中依赖了多个外部模型(ASR、LLM、VC),其性能上限可能受这些组件制约。数据集主要覆盖6类副语言事件,其他类别尚未涵盖。


26. Asynchrony-Aware Decoupled Multimodal Control for Cued Speech Video Generation

7.5/10 | 前10% | #语音合成 | #扩散模型 | #流匹配 #音视频

👥 作者与机构

  • 第一作者:Fengji Ma(香港科技大学(广州))
  • 通讯作者:Li Liu(香港科技大学(广州),邮箱:avrillliu@hkust-gz.edu.cn)
  • 作者列表:Fengji Ma(香港科技大学(广州))、Xiao-Ping Zhang(清华伯克利深圳学院)、Li Liu(香港科技大学(广州))

💡 毒舌点评

这篇论文的亮点在于将“手语视频生成”这个具体任务分解得非常清晰,并针对其中“控制纠缠”、“动作异步”和“长视频漂移”三个痛点分别设计了技术方案(DCL、SAMP、MS-CWD),体现了扎实的工程思维和问题导向。然而,其短板也显而易见:作为一篇强调生成质量的工作,却未提供任何开源代码或预训练模型,甚至训练数据集的公开性也未明确,这极大削弱了其作为学术贡献的可验证性和后续研究价值;此外,长视频一致性的验证仅在500帧左右,对于实际应用可能需要更长序列的表现未做探讨。

📌 核心摘要

  1. 要解决的问题:论文旨在解决从语音和姿态信号生成手语视频(Cued Speech Video)时面临的三个关键挑战:(1) 语音与姿态模态间的控制纠缠,导致嘴唇和手部细节模糊;(2) 手语系统固有的手部动作与语音的自然异步性,严格对齐会导致动作不自然;(3) 长视频生成中缺乏长期时序一致性。
  2. 方法核心:提出一个名为“解耦课程学习”(Decoupled Curriculum Learning, DCL)的三阶段训练框架。该框架先分别训练语音分支(控制嘴唇)和姿态分支(控制上半身和手势),再进行联合微调。同时,引入了区域感知重建损失(RAR)以增强局部细节,设计了语音异步调制(SAMP)机制来建模手势与语音的自然时间偏移,并提出了多尺度上下文窗口去噪(MS-CWD)推理策略以保证长视频的时序连贯性。
  3. 与已有方法的创新点:与以往通用的人像动画或说话人头部生成方法不同,本文是首个针对“手语视频生成”这一特定任务进行系统性建模的工作。其创新点包括:(1) 明确的解耦训练策略(DCL)以避免模态干扰;(2) 区域感知的精细化损失(RAR)聚焦于嘴唇和手部这两个关键区域;(3) 首次在生成任务中显式建模语音与手势的异步关系(SAMP);(4) 专为长视频设计的多尺度、加权融合的推理算法(MS-CWD)。
  4. 主要实验结果:在自建的普通话手语(MCCS)数据集上,本文方法在所有评估指标上均优于StableAnimator (SA) 和 UniAnimate-DiT (UAD) 两个SOTA方法。具体数值见表1。消融实验证明,移除任何一个提出模块(DCL, RAR, SAMP, MS-CWD)都会导致性能下降,其中移除DCL影响最大。图4显示,在500帧长视频中,本文方法的手部关键点置信度(HKC)和语音-嘴唇同步置信度(Sync-C)的衰减率仅为约3%,远低于基线方法(约7%-22%)。
  5. 实际意义:该技术有望为听障人群生成易于理解的、手语辅助的教学或交流视频,打破沟通壁垒。其提出的技术(如异步建模、长视频生成)也可能迁移至其他需要多模态协调控制的视频生成任务中。
  6. 主要局限性:论文未提供代码和模型,复现困难;实验仅在普通话手语数据集上进行,未验证其他语言手语的通用性;未分析模型的计算开销和训练成本;长视频测试的最长长度为500帧,对于更长的序列(如分钟级)的稳定性有待进一步验证。

27. DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance

7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习

👥 作者与机构

  • 第一作者:Kang Yin(中国科学技术大学),Chunyu Qiang(快手科技) (论文标注†表示同等贡献,故两位均为第一作者)
  • 通讯作者:Sirui Zhao(中国科学技术大学),Tong Xu(中国科学技术大学),Chen Zhang(快手科技) (论文标注*表示通讯作者)
  • 作者列表:
    • Kang Yin(中国科学技术大学)
    • Chunyu Qiang(快手科技)
    • Sirui Zhao(中国科学技术大学)
    • Xiaopeng Wang(快手科技)
    • Yuzhe Liang(快手科技)
    • Pengfei Cai(中国科学技术大学)
    • Tong Xu(中国科学技术大学)
    • Chen Zhang(快手科技)
    • Enhong Chen(中国科学技术大学)

💡 毒舌点评

本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案,Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效,实验数据扎实,切实推动了可控TTS在解耦方向上的进步。然而,其创新更多是“优秀的组合”而非“从零的突破”,且说话人相似度这一关键指标不及部分基线,暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。

📌 核心摘要

这篇论文旨在解决可控文本转语音(TTS)系统中说话人音色与说话风格难以独立控制、容易相互纠缠的核心问题。论文提出了DMP-TTS,一个基于潜在扩散Transformer(DiT)的框架,其核心创新在于引入了三个关键技术:1)Style-CLAP:一个统一的多模态风格编码器,通过对比学习和多任务监督,将音频参考和文本描述映射到共享的风格嵌入空间;2)链式无分类器指导(cCFG):一种训练时采用层级条件丢弃、推理时允许独立调节内容、音色和风格引导强度的机制;3)表示对齐(REPA):利用预训练Whisper模型的特征来指导DiT中间层的学习,以稳定训练和加速收敛。实验基于一个约300小时的中文内部数据集,结果表明,DMP-TTS在风格控制准确性(情绪、能量、语速)上显著优于CosyVoice、CosyVoice2等开源基线,同时保持了有竞争力的自然度和清晰度。消融实验证实了多任务监督主要提升风格控制,REPA主要提升清晰度并加速收敛。该工作的实际意义在于为构建更灵活、自然的个性化语音交互系统提供了新的技术路径。其主要局限性包括:说话人相似度与部分基线仍有差距;高情感表现力会诱发音色变化,揭示了表现力与音色保真之间存在内在权衡;模型训练依赖于高质量、有标注的内部数据集。


28. RRPO: Robust Reward Policy Optimization for LLM-Based Emotional TTS

7.5/10 | 前25% | #语音合成 | #强化学习 | #大语言模型 #鲁棒性

👥 作者与机构

  • 第一作者:Cong Wang(北京邮电大学)
  • 通讯作者:Ya Li(北京邮电大学)
  • 作者列表:Cong Wang(北京邮电大学),Changfeng Gao(未说明),Yang Xiang(未说明),Zhihao Du(未说明),Keyu An(未说明),Han Zhao(未说明),Qian Chen(未说明),Xiangang Li(未说明),Yingming Gao(北京邮电大学),Ya Li(北京邮电大学)

💡 毒舌点评

这篇论文的亮点在于它对可微分强化学习在TTS中应用的“奖励黑客”现象进行了细致入微的病理分析,并开出了一剂对症的“混合正则化”药方,实验也清晰地展示了“药到病除”的效果。然而,其短板在于实验规模(单说话人、单语言、10k样本)相对局限,且核心的“鲁棒性”验证严重依赖下游SER任务的跨语言泛化作为代理指标,而非直接衡量生成语音对多种黑客攻击的抵抗力,说服力尚有提升空间。

📌 核心摘要

本文旨在解决基于大语言模型的情感TTS中,采用可微分奖励优化(DiffRO)方法时出现的“奖励黑客”问题。即策略模型会学习生成一些能欺骗奖励模型(RM)获得高分但实际听感不佳的声学伪影(如不自然的唇齿音)。为此,作者提出了鲁棒奖励策略优化(RRPO) 框架,其核心是采用混合正则化方案对预训练的RM进行微调,从标签置信度、决策边界脆弱性和扰动敏感性三个层面纠正RM的偏差,使其奖励信号更贴近人类感知。与直接优化或简单SFT相比,该方法的新颖之处在于构建了一个更难被“黑客攻击”的可靠奖励信号。实验表明,RRPO在情感表达(E-MOS)和自然度(N-MOS)上均优于基线(CosyVoice2, SFT, DiffRO)。具体地,RRPO的E-MOS达到3.78±0.08,N-MOS达到3.81±0.09,而存在奖励黑客现象的DiffRO基线N-MOS仅为3.61±0.13。消融研究证实了混合正则化显著提升了RM在多个跨语言情感识别数据集上的泛化能力。该工作为强化学习在TTS中的安全应用提供了有效方案,但其在更多样化场景下的泛化能力和对更复杂攻击的抵御能力有待进一步验证。


29. Syncspeech: Efficient and Low-Latency Text-to-Speech Based on Temporal Masked Transformer

7.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #预训练

👥 作者与机构

  • 第一作者:Zhengyan Sheng(中国科学技术大学)
  • 通讯作者:Liping Chen(中国科学技术大学)
  • 作者列表:Zhengyan Sheng(中国科学技术大学),Zhihao Du(未说明具体机构,标注为独立研究者),Shiliang Zhang(未说明具体机构,标注为独立研究者),Zhijie Yan(未说明具体机构,标注为独立研究者),Liping Chen(中国科学技术大学)

💡 毒舌点评

SyncSpeech 巧妙地将自回归模型的“时序感”与非自回归模型的“并行力”结合,通过一个统一的TMT框架在低延迟和高效率上取得了显著突破,特别是在中文场景下效果惊艳。不过,其语音质量本身并未超越已有的顶尖AR模型(如CosyVoice2),创新更多体现在生成范式的效率优化而非合成质量的绝对提升,且实验场景相对单一。

📌 核心摘要

  1. 问题:现有文本到语音(TTS)模型面临两难:自回归(AR)模型生成效率低,而非自回归(NAR)模型因无序生成导致首包延迟高,难以用于流式场景。
  2. 方法核心:提出SyncSpeech模型和Temporal Masked Transformer(TMT)范式。TMT在训练时通过随机截断和掩码,模拟接收流式文本并预测对应语音片段;推理时,每收到一个文本词(BPE token),即可一步并行生成其对应的全部语音token及下一个文本词的时长,实现“文本同步”生成。
  3. 与已有方法不同:TMT将AR模型的有序生成与NAR模型的并行预测统一在一个解码步骤中。其时间复杂度从与语音序列长度T线性相关(AR)降低为与文本序列长度L线性相关(L≪T),从而大幅提升效率并降低延迟。此外,引入了高概率掩码预训练和混合注意力机制(结合因果与双向)。
  4. 主要实验结果:在LibriSpeech(英文)和SeedTTS(中文)基准上,SyncSpeech在语音质量(WER, SS, MOS)上与强AR基线CosyVoice2持平。关键突破在于延迟和效率:
    • 首包延迟(FPL-A):比AR模型分别降低 3.7倍(英文) 和 5.8倍(中文)。
    • 实时率(RTF):比AR模型分别提升 6.4倍(英文) 和 8.8倍(中文)。
    • 流式设置下(FPL-L),在假设接入Qwen-7B LLM时,延迟优势更为明显。
  5. 实际意义:为构建与大语言模型无缝对接、支持超低延迟交互的语音合成系统提供了一个高效基础架构,有望推动实时语音助手、辅助通信等应用的发展。
  6. 主要局限性:语音自然度与音色相似性相较于最强基线无提升;评估主要在标准数据集上进行,未验证在嘈杂环境、多样化风格或极端低资源场景下的表现;依赖上游的强制对齐工具。


30. Principled Coarse-Grained Acceptance For Speculative Decoding In Speech

7.5/10 | 前25% | #语音合成 | #推测解码 | #语音大模型 #自回归模型

👥 作者与机构

  • 第一作者:Moran Yanuka(1 Apple, 2 Tel-Aviv University)
  • 通讯作者:未说明
  • 作者列表:Moran Yanuka(Apple, 特拉维夫大学)、Paul Dixon(Apple)、Eyal Finkelshtein(Apple)、Daniel Rotman(Apple)、Raja Giryes(特拉维夫大学)

💡 毒舌点评

论文的亮点在于从第一性原理出发,将语音标记的“声学模糊性”转化为推测解码的“��势”,提出的重叠声学相似性组(ASG)和精确的组级拒绝采样框架在理论上很优雅,且实验显著提升了接受率与生成质量。短板在于其对比的基线(特别是SSD)相对较弱,且实验设置相对简单(单一8B模型、单一数据集、固定加速比),未能充分展示该方法在更复杂、更具挑战性场景下的鲁棒性和普适潜力,开源代码的缺失也影响了社区的快速验证。

📌 核心摘要

  1. 问题:在语音大模型的自回归生成中应用标准推测解码(SD)效率低下,因为许多离散语音标记在声学上是可互换的,严格的标记匹配会拒绝大量合理的草案,导致接受率低,速度提升有限。
  2. 方法核心:提出“原理性粗粒化”(PCG)框架。核心是构建“声学相似性组”(ASG):在目标模型的嵌入空间中,将余弦相似度超过阈值的语音标记聚合成重叠的组。验证时,不再比对单个标记,而是比对标记所属的组。
  3. 创新点:相比之前的启发式放宽(如SSD)或限制采样池(top-k)的方法,PCG为组变量定义了精确的重叠感知粗粒分布,并在组级别进行符合目标分布的拒绝采样,提供了严格的分布保证。同时,重叠的组设计保留了平滑的声学邻域。
  4. 主要实验结果:在LibriTTS数据集上,以LLaSA-8B为目标模型,在获得1.4倍加速时,PCG的WER为13.8,CER为7.8,均优于SSD(WER 18.5, CER 11.6),且说话人相似度(Sim-O)和自然度(NMOS)更高。消融实验表明,在ASG中随机替换标记仅引起微小的质量下降,验证了组内标记的可互换性假设。
    • 主要结果对比表:
      方法加速比WER ↓CER ↓Sim-O ↑NMOS ↑
      Draft模型5.2×52.8 ± 1.641.4 ± 1.836.3 ± 1.1-
      Target + SD0.98×11.1 ± 0.65.5 ± 0.543.7 ± 0.34.38 ± 0.88
      Target + SSD [3]1.4×18.5 ± 1.911.6 ± 1.742.5 ± 0.43.78 ± 1.21
      Target + PCG1.4×13.8 ± 0.47.8 ± 0.343.7 ± 0.14.09 ± 1.13
  5. 实际意义:提供了一种简单、通用且理论可靠的方法,可以显著提升基于离散标记的语音生成模型的推理速度,同时保持生成质量,特别适用于对延迟敏感的端侧应用。
  6. 主要局限性:实验主要集中在单个数据集和模型上;ASG的构建依赖目标模型的嵌入空间和阈值θ,其泛化性有待验证;论文未提供代码,限制了复现和快速应用。

31. SPADE: Structured Pruning and Adaptive Distillation for Efficient LLM-TTS

7.5/10 | 前25% | #语音合成 | #知识蒸馏 | #大语言模型 #零样本

👥 作者与机构

  • 第一作者:Tan Dat Nguyen(KAIST, 韩国高级科学技术研究院)
  • 通讯作者:Jaehun Kim(KAIST, 韩国高级科学技术研究院)
  • 作者列表:Tan Dat Nguyen(KAIST)、Jaehun Kim(KAIST)、Ji-Hoon Kim(KAIST)、Shukjae Choi(42dot Inc.)、Youshin Lim(42dot Inc.)、Joon Son Chung(KAIST)

💡 毒舌点评

这篇论文像一位精干的“压缩工程师”,精准地指出了LLM-TTS这个“胖子”身上哪些“赘肉”(冗余层)可以剪掉,并用“营养针”(自适应蒸馏)让它快速恢复健康,最终在保持核心能力的同时显著提升了“运动”(推理)速度。它的亮点在于将WER作为剪枝的直接优化目标,比传统的余弦距离更“对症下药”。但短板也很明显:本质上是剪枝+蒸馏的“旧瓶装新酒”,对极端压缩下WER的显著上升缺乏更深入的解释或更优的解决方案,更像是一个精心设计的组合拳,而非全新的武器。

📌 核心摘要

  1. 问题:基于大语言模型的文本转语音(LLM-TTS)系统性能强大,但参数量大、内存占用高、自回归解码慢,严重限制了其在实时场景和边缘设备的部署。
  2. 方法:提出了SPADE框架,结合两步策略:(i) 基于字错率重要性指标(WLI)识别并剪枝Transformer中的冗余层;(ii) 采用多层次知识蒸馏(包括Logit、潜在状态、注意力图)恢复因剪枝损失的自回归连贯性和生成质量。
  3. 创新:与通用LLM剪枝不同,本文提出了针对TTS任务的WER导向的层重要性评估(WLI),实验表明其优于余弦距离指标;其次,设计了动态目标层的蒸馏策略,使学生层能对齐教师模型中被剪枝段的最后一层表示,更有效地吸收知识。
  4. 结果:在零样本基准测试中,SPADE在保持感知质量(NMOS, SS)近乎持平的前提下,将Transformer深度减半,参数减少最高40%,VRAM使用降低最高20%,推理实时因子(RTF)提升最高1.7倍。恢复性能仅需使用原始预训练数据量的不到5%。
模型 (配置)层数参数量RTF ↓NMOS (Seed-TTS)WER (Seed-TTS) ↓SS (Seed-TTS)NMOS (LibriTTS)WER (LibriTTS) ↓SS (LibriTTS)
CosyVoice 2240.63B0.613.71 ± 0.132.030.664.151.430.81
CosyVoice 2 + SPADE (12层)120.38B0.353.58 ± 0.142.710.664.161.590.82
CosyVoice 2 + SPADE (9层)90.32B0.333.55 ± 0.143.090.664.151.940.81
LLaSA161.7B0.823.37 ± 0.153.540.464.131.540.47
LLaSA + SPADE (8层)81.3B0.583.11 ± 0.144.200.414.061.880.43
  1. 意义:证明了通过结构化剪枝和高效蒸馏,可以构建出高质量、低延迟的紧凑型LLM-TTS模型,为实时语音生成和实际应用部署铺平道路。
  2. 局限:性能恢复仍需微调数据(尽管量少);在LLaSA上的性能下降相对明显,表明方法效果可能因模型而异;极端压缩(如9层)会导致WER显著上升,可读性/清晰度与效率的权衡需谨慎。

32. Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec

7.5/10 | 前25% | #语音合成 | #信号处理 | #低资源 #流式处理

👥 作者与机构

  • 第一作者:Yanzhou Ren(早稻田大学)
  • 通讯作者:未说明
  • 作者列表:Yanzhou Ren(早稻田大学)、Noboru Harada(NTT, Inc., Japan)、Daiki Takeuchi(NTT, Inc., Japan)、Siyu Chen(早稻田大学)、Wei Liu(早稻田大学)、Xiao Zhang(早稻田大学)、Liyuan Zhang(早稻田大学)、Takehiro Moriya(NTT, Inc., Japan)、Shoji Makino(早稻田大学)

💡 毒舌点评

这篇论文就像给一辆已经不错的汽车(Mimi)换了套更智能的轮胎(EG-GRVQ),开起来确实更稳更高效,但发动机和底盘没变。优点是思路自然、实验扎实,将信息论概念(熵/方差)与工程实践(分组量化)结合得很漂亮;缺点是技术突破感不强,更像一次精细的调优,而且没把“改装图纸”(代码)公开出来。

📌 核心摘要

  1. 要解决什么问题:在超低比特率条件下,神经语音编码器如何同时保证高保真的波形重建质量和足够高的语音可懂度(语义信息)。
  2. 方法核心是什么:提出熵引导的分组残差矢量量化(EG-GRVQ)。它在保留Mimi模型语义分支的同时,在声学分支中,利用编码器各通道输出的方差(作为信息量的代理)来指导如何将通道分成两个信息量均衡的组,而非传统的均匀分割。
  3. 与已有方法相比新在哪里:相较于Mimi原始的RVQ和HiFi-Codec的均匀分组GRVQ,EG-GRVQ的创新点在于“引导分组”的依据。它基于高斯分布假设,认为通道方差与其携带的微分熵正相关,因此通过方差排序和累加来确保分组间的信息负载均衡,旨在提升码本利用效率和减少信息冗余。
  4. 主要实验结果如何:在0.6875 kbps的超低比特率下,与多个基线相比,EG-GRVQ在客观指标和主观评价上均取得提升。关键数据如下:
    • 客观评估:
      方法PESQ↑STOI↑ViSQOL↑
      Mimi (official)1.8720.8762.010
      Mimi (retrain)1.7790.8862.546
      Mimi (GRVQ)1.8520.8892.464
      Proposal (EG-GRVQ)1.8810.8902.496
      (表1数据)
    • 码本利用效率:EG-GRVQ在各层码本上保持了更高且更均衡的利用率,而传统RVQ在深层码本利用率急剧下降。
    • 主观评估:MUSHRA测试中,EG-GRVQ比官方Mimi得分高21分,比Mimi (GRVQ)高11分,且提升具有统计显著性(图4,图5)。
  5. 实际意义是什么:该方法为低带宽实时语音通信(如VoIP、卫星通信)提供了一种提升音质的可行方案,能在固定比特率预算内更高效地利用量化资源,平衡语义与声学保真度。
  6. 主要局限性是什么:1) 分组策略在训练前固定为超参数,未探讨逐帧自适应的可能性(论文中提及但为简化未实施);2) 核心改进局限于声学分支的分组策略,未涉及编解码器整体架构或语义分支的优化;3) 未开源代码和模型,限制了直接复现和快速迭代。

33. Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens

7.5/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #语音表示

👥 作者与机构

  • 第一作者:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology)
  • 通讯作者:未说明
  • 作者列表:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology),He Huang(NVIDIA),Jean-Marie Lemercier(NVIDIA),Subham Sekhar Sahoo(NVIDIA;Cornell Tech),Zhehuai Chen(NVIDIA),Ante Jukić(NVIDIA)

💡 毒舌点评

亮点:论文将新兴的离散扩散模型系统性地应用于语音token重建,并提供了迄今最全面的实证分析,结论(如FSQ优于RVQ、Conf-TopK采样更佳)对后续相关工作有直接的工程指导价值。短板:论文主要贡献是“应用与分析”,而非提出基础理论或解决语音token化中的核心难题(如语义与声学信息的完美解耦),且未探讨其方法对下游语音大模型(如TTS、ASR)性能的影响,使其深度和影响力受限。

📌 核心摘要

  1. 要解决什么问题:现有的TASTE语音token化框架依赖自回归(AR)解码器来重建语音,这导致推理速度慢,且重建质量可能非最优。
  2. 方法核心是什么:提出用离散扩散模型(DDM)替代TASTE中的AR解码器。模型在推理时,通过迭代去噪(从全掩码到逐步揭示)来并行预测S3 token序列,再由vocoder生成波形。
  3. 与已有方法相比新在哪里:首次在TASTE框架中系统性地应用并分析DDM。与AR解码器相比,DDM解码具有并行性,且质量更高。同时,论文系统比较了向量量化方案(RVQ vs. FSQ),发现FSQ能显著提升性能。
  4. 主要实验结果如何:在LibriSpeech数据集上,DDM解码器相比AR基线实现了3.3倍的推理速度提升(测试集1.65秒 vs. 5.48秒)。使用RVQ量化时,DDM的WER比AR降低35%(测试集:5.10% vs. 7.60%),UT-MOS提升0.45(4.27 vs. 3.82)。使用FSQ量化后,性能进一步提升,AR模型的WER相对降低35%,UT-MOS提升0.14。DDM模型在10步推理时即可达到峰值性能,甚至单步推理也基本可用。关键实验结果对比如下表:
    模型量化方式测试集WER (%) ↓UT-MOS ↑
    AR基线4L-RVQtest-clean7.603.82
    本文DDM4L-RVQtest-clean5.104.27
    本文DDM4L-FSQtest-clean4.004.30
    本文DDM10步test-clean3.704.28
    本文DDM单步test-clean5.143.81
  5. 实际意义是什么:为语音token化中的高效、高质量解码提供了一个优于自回归范式的新方案,展示了离散扩散模型在条件生成任务中的潜力,并提供了工程实践上的具体指导(如采样器选择、步数设置)。
  6. 主要局限性是什么:模型性能严重依赖一个外部长度预测器来估计S3 token序列长度;论文未验证该改进的语音表示对下游语音大模型(如端到端TTS、ASR)的具体增益;其优势建立在强条件(文本+TASTE embedding)上,对于无条件或弱条件生成任务的普适性未探讨。

34. Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions

7.5/10 | 前25% | #语音合成 | #流匹配 | #预训练 #零样本

👥 作者与机构

  • 第一作者:Kun Zhou(阿里巴巴集团通义实验室,新加坡)
  • 通讯作者:未说明
  • 作者列表:Kun Zhou(阿里巴巴集团通义实验室,新加坡)、You Zhang(美国罗切斯特大学)、Dianwen Ng(阿里巴巴集团通义实验室,新加坡)、Shengkui Zhao(阿里巴巴集团通义实验室,新加坡)、Hao Wang(阿里巴巴集团通义实验室,新加坡)、Bin Ma(阿里巴巴集团通义实验室,新加坡)

💡 毒舌点评

亮点在于将经典心理学理论(PAD模型)与前沿的语言模型TTS框架深度结合,实现了从离散情感标签到连续情感空间控制的优雅跳转,为情感语音合成提供了更富表现力的控制范式。短板是实验部分更像一场“理论验证秀”(如图2展示合成语音的声学特征与理论吻合),但在与当前最强系统(如使用大规模情感数据或更强解码方法的模型)的“硬碰硬”对比和系统性消融实验上显得保守和不足,使得其宣称的优势说服力打了折扣。

📌 核心摘要

  1. 要解决什么问题:当前的情感语音合成(TTS)系统受限于数据集中的少量离散情感标签(如喜怒哀乐),无法覆盖人类丰富(理论上有约34000种)且微妙的情感光谱,导致生成语音的情感表达有限、不自然。
  2. 方法核心是什么:本文提出一个基于语言模型的TTS框架,核心是引入情感维度(ED)预测器和连续情感维度控制。ED预测器利用心理学期理论(PAD模型:愉悦度-唤醒度-支配度),将语音数据集中的离散情感标签映射为连续的3维向量。在TTS训练和推理时,将ED向量作为额外条件输入语言模型,从而引导语音合成。
  3. 与已有方法相比新在哪里:相比传统基于离散标签的监督学习或基于参考语音的风格迁移方法,本文方法无需在TTS训练阶段使用显式情感标签,仅通过连续的ED向量即可在推理时灵活控制生成语音的情感风格,且能探索训练数据中未出现过的情感组合。
  4. 主要实验结果如何:在零样本情感克隆任务上,本文方法的语音自然度MOS(4.54)优于基线CosyVoice(4.36)。在情感可懂度(E-MOS)主观评估中,本方法在所有测试情感上得分均高于CosyVoice基线。XAB测试表明,系统能较好地区分PAD维度相近的情感对(如愤怒vs焦虑,正确匹配率约84%)。客观上,合成语音的音高和频谱通量统计特征与理论预期相符(如图2所示)。
  5. 实际意义是什么:该框架使得TTS系统能够更精细、灵活地合成多样化的情感语音,无需依赖大规模标注数据,有望提升对话系统、有声读物、虚拟助手等应用的情感交互自然度和用户体验。
  6. 主要局限性是什么:1) 情感维度预测器依赖于已有的离散情感标签数据集进行训练,其质量可能受限于原始标签的噪声和偏差;2) 实验评估中,与最先进的情感TTS系统(如CosyVoice的情感扩展版本EmoCtrl-TTS)的直接对比缺失,且缺乏关键模块的消融研究;3) 当前工作主要在英语单语种上进行验证,多语言适应性未探讨。

35. Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation

7.5/10 | 前25% | #语音合成 | #特征调制 | #情感语音合成 #流匹配

👥 作者与机构

  • 第一作者:Sirui Wang(哈尔滨工业大学)
  • 通讯作者:Tiejun Zhao*(哈尔滨工业大学)
  • 作者列表:Sirui Wang(哈尔滨工业大学)、Andong Chen(哈尔滨工业大学)、Tiejun Zhao(哈尔滨工业大学)

💡 毒舌点评

亮点:论文首次在LLM-TTS框架中实现了单词级的情感动态控制,概念清晰,并通过构建专用的FEDD数据集和详实的消融实验,有力地证明了其方法的有效性,实验设计相当规范。短板:然而,整个框架严重依赖于一个未完全公开细节的预训练模型(CosyVoice2),且代码和模型均未开源,这使得其“可复现性”大打折扣,更像是在现有强大基座上添加了一个精巧的模块,而非一个能独立复现和推广的完整解决方案。

📌 核心摘要

本文针对现有情感语音合成(E-TTS)方法大多依赖句子级全局情感控制(如标签、参考音频或提示)无法捕捉句内情感动态变化的问题,提出了Emo-FiLM框架。该方法的核心是:1)利用预训练的emotion2vec模型提取帧级情感特征,并通过一个轻量级Transformer模型将其对齐到单词,生成单词级的情感类别和强度标注;2)在预训练的LLM-TTS(CosyVoice2)框架中引入一个情感特征线性调制(E-FiLM)模块,将单词级的情感信息映射为文本嵌入的缩放和偏移参数,从而实现对语音生成过程的细粒度调制。为评估动态情感合成能力,论文构建了首个包含情感转折标注的Fine-grained Emotion Dynamics Dataset (FEDD)。实验表明,在FEDD数据集上,Emo-FiLM在情感动态匹配(DTW)指标上比最强基线(CosyVoice2)提升了9.1%(从54.57降至49.62),在主观情感相似度(EMOS)和自然度(NMOS)上也取得最佳成绩(4.19和4.23)。消融实验证实,单词级数据监督、情感损失和FiLM调制层均为关键组件。该工作为生成更自然、更具表现力的合成语音提供了新的方向,其主要局限在于依赖特定预训练模型且未开源代码,限制了复现与推广。


36. QFOCUS: Controllable Synthesis for Automated Speech Stress Editing to Deliver Human-Like Emphatic Intent

7.5/10 | 前50% | #语音合成 | #端到端 | #注意力机制 #少样本

👥 作者与机构

请基于当前提供的论文内容尽量完整提取作者与机构信息,要求:

  1. 明确标注第一作者(如论文可判断),否则写“未说明”
  2. 明确标注通讯作者(如论文可判断),否则写“未说明”
  3. 列出能确认的作者姓名及其所属机构(大学、实验室、公司)
  4. 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级
  5. 禁止猜测机构信息;无法确认时明确写“未说明”

输出格式示例:

  • 第一作者:张三(清华大学计算机系)
  • 通讯作者:李四(Google DeepMind)
  • 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明)

💡 毒舌点评

用 2-3 句话做有信息量的点评,必须同时包含至少 1 个亮点和 1 个短板。可以犀利,但不要空泛嘲讽,不要只喊“很强”或“很水”。

📌 核心摘要

用 5-8 句话总结这篇论文,必须覆盖:

  1. 要解决什么问题
  2. 方法核心是什么
  3. 与已有方法相比新在哪里
  4. 主要实验结果如何(尽量带数字;没有就写未提供)。如果论文中有实验结果表格,必须用 Markdown 表格完整列出关键数据;如果有实验结果相关图表,描述图表内容
  5. 实际意义是什么
  6. 主要局限性是什么

37. Synthetic yet Striking? Assessing Vocal Charisma in TTS via Perceptual and Algorithmic Measures

7.5/10 | 前25% | #语音合成 | #模型评估 | #语音情感识别 #偏见与公平

👥 作者与机构

  • 第一作者:Lena Conle(柏林工业大学 语言与交流研究所)
  • 通讯作者:未说明(论文中未明确指定通讯作者,Oliver Niebuhr为最后作者)
  • 作者列表:Lena Conle(柏林工业大学 语言与交流研究所)、Io Valls-Ratés(南丹麦大学 工业电子中心)、Oliver Niebuhr(南丹麦大学 工业电子中心)

💡 毒舌点评

这篇论文的亮点在于它像一位严谨的“声学测量员”,将针对真人魅力的复杂声学量表(PICSA)成功校准并应用于测量“合成嗓音”的魅力潜力,证实了人类感知框架的跨领域一致性。但短板在于它对合成语音的“阿喀琉斯之踵”——那些破坏自然感的合成伪影(如拼接瑕疵、不自然音色)——仅做了定性观察,未能将其纳入量化模型,导致PASCAL分数系统性高估,削弱了其作为“完美评估器”的说服力。

📌 核心摘要

  1. 问题:TTS系统已高度自然,但其“社交有效性”(如魅力)仍有欠缺。如何量化评估和提升合成语音的魅力?自然语音的魅力感知模型能否直接迁移到TTS语音?
  2. 方法:核心是使用已为自然语音开发的PICSA算法,该算法提取16个韵律-声学特征并计算一个复合分数(PASCAL分数,0-100)。研究者用PICSA评估了12个TTS声音(来自5个平台,含男、女、中性声音),并进行了包含22名听众的感知实验,对每个声音在“有魅力”及相关属性上评分。
  3. 新意:首次系统性地将基于自然语音的量化魅力模型(PICSA)应用于TTS语音评估,并结合感知实验,验证其有效性并揭示感知偏差(特别是性别偏见)。
  4. 主要结果:
    • 高相关性:PASCAL分数与听众的“魅力”评分高度正相关(r=.897, p<.001),解释了超过80%的方差。见图1。
    • 感知框架一致:听众对TTS魅力的感知与对自然语音的感知一致,主要与“热情”、“说服力”、“自信”强相关(r > .95)。
    • 性别偏见:人类听众将男性感知TTS评为更有魅力(M=33.4 vs M=21.8,p=.027, Cohen’s d=0.88),但PICSA算法本身对男女声音的评分无显著差异(M=55.2 vs M=54.1),表明算法避免了人类听众的偏见。
    • 系统高估:PASCAL分数普遍高于人类评分(见图1中虚线与点线的偏离),作者归因于算法无法感知合成伪影。
  5. 意义:为TTS魅力建模提供了经过验证的量化评估工具(PICSA),明确了与魅力相关的核心韵律特征,并警示了单纯依赖声学模型无法消除感知层面的性别偏见。
  6. 局限:未将合成伪影(自然度)的量化评估纳入模型;实验仅使用一种语义中性的文本,结论的普适性待验证;对算法无法处理的声学特征(如音素对比度)讨论不足。


38. TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Framework for Ü-Tsang, Amdo and Kham Speech Dataset Generation

7.5/10 | 前25% | #语音合成 | #流匹配 | #方言建模 #低资源

👥 作者与机构

  • 第一作者:Yutong Liu(电子科技大学信息与软件工程学院)、Ziyue Zhang(电子科技大学信息与软件工程学院)(论文显示两人贡献相等,标注为†)
  • 通讯作者:Yongbin Yu(电子科技大学信息与软件工程学院)、Xiangxiang Wang(电子科技大学信息与软件工程学院)、Nyima Tashi(电子科技大学信息与软件工程学院 & 西藏大学信息科学技术学院)
  • 作者列表:Yutong Liu(电子科技大学信息与软件工程学院),Ziyue Zhang(电子科技大学信息与软件工程学院),Ban Ma-bao(电子科技大学信息与软件工程学院),Renzeng Duojie(西藏大学信息科学技术学院),Yuqing Cai(电子科技大学信息与软件工程学院),Yongbin Yu(电子科技大学信息与软件工程学院),Xiangxiang Wang(电子科技大学信息与软件工程学院),Fan Gao(电子科技大学信息与软件工程学院),Cheng Huang(美国德克萨斯大学西南医学中心眼科),Nyima Tashi(电子科技大学信息与软件工程学院 & 西藏大学信息科学技术学院)

💡 毒舌点评

亮点在于其问题定义精准——直接针对藏语三大方言互不相通的现实痛点,并设计了端到端的解决方案与数据生成管线,形成了从模型到数据集的完整闭环。短板在于其核心方法DSDR-Net的本质是在Transformer的FFN中引入了基于方言ID的条件计算,这属于对标准架构的合理扩展,理论创新深度有限,且论文对训练损失等细节描述不足。

📌 核心摘要

  1. 解决的问题:针对藏语(卫藏、安多、康巴三方言)作为低资源语言,缺乏大规模平行语音语料库,限制了跨方言交流与语音技术发展的问题。
  2. 方法核心:提出TMD-TTS框架,基于Matcha-TTS(流匹配模型)构建。核心创新是引入了方言融合模块,将方言ID的嵌入与文本隐层表示融合;以及设计了方言专属动态路由网络(DSDR-Net),用以替代Transformer中的标准前馈网络(FFN)。DSDR-Net根据输入的方言ID,将信息动态路由到对应的方言专属子网络中,从而更精细地建模各方言独特的声学与韵律特征。
  3. 与已有方法相比新在哪里:相比先前方法(如使用独立 vocoder 或共享参数),本框架在统一的模型中通过明确的方言嵌入和条件计算机制,实现了对多方言特征更早、更深层次的建模,无需为每个方言单独训练 vocoder。
  4. 主要实验结果:在构建的179小时多方言数据集上,TMD-TTS在三方言上的所有主要客观指标(STOI, PESQ, SI-SDR, DNSMOS)和方言一致性指标(DCA, DECS)上均显著优于SC-CNN、VITS2和Matcha-TTS基线。例如,在卫藏方言上,TMD-TTS的DECS为88.09%(Matcha-TTS为65.20%),DCA为67.41%(Matcha-TTS为65.80%)。消融实验表明,DSDR-Net和方言融合模块共同贡献了模型性能,移除任一模块都会导致方言一致性大幅下降。基于该模型生成的TMDD数据集(约102小时)在下游的语音到语音方言转换(S2SDC)任务中,也表现优于基线数据集。
  5. 实际意义:为藏语这一低资源语言提供了一个高效、可控的多方言语音合成工具,并发布了大规模、高质量的合成语音数据集(TMDD),极大地降低了相关研究的数据门槛,有望推动藏语语音技术(如语音识别、方言转换)的整体进步。
  6. 主要局限性:论文主要聚焦于生成能力的提升和验证,未深入探讨生成语音可能存在的“方言刻板印象”或真实细微差异的保真度上限。此外,虽然实验充分,但所有评估均基于合成数据,尚缺乏在真实、自然对话场景中的大规模效用验证。

39. Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS

7.5/10 | 前25% | #语音合成 | #流匹配 | #端到端 #有声书生成

👥 作者与机构

  • 第一作者:Ziqi Dai(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室)†
  • 通讯作者:Weifeng Zhao(腾讯音乐娱乐Lyra实验室)⋆, Ruohua Zhou(北京建筑大学智能科学与技术学院)⋆
  • 作者列表:
    • Ziqi Dai†(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室)
    • Yiting Chen†(腾讯音乐娱乐Lyra实验室)
    • Jiacheng Xu(腾讯音乐娱乐Lyra实验室)
    • Liufei Xie(腾讯音乐娱乐Lyra实验室)
    • Yuchen Wang(腾讯音乐娱乐Lyra实验室)
    • Zhenchuan Yang(腾讯音乐娱乐Lyra实验室)
    • Bingsong Bai(北京邮电大学)
    • Yangsheng Gao(腾讯音乐娱乐Lyra实验室)
    • Wenjiang Zhou(腾讯音乐娱乐Lyra实验室)
    • Weifeng Zhao⋆(腾讯音乐娱乐Lyra实验室)
    • Ruohua Zhou⋆(北京建筑大学智能科学与技术学院)

💡 毒舌点评

亮点:该工作将“为角色从文本生成声音”和“根据上下文生成情感语音”这两个有声书制作的关键环节进行了系统性建模,并提出了Text-to-Timbre (TTT) 这一新颖任务及其流匹配解决方案。短板:其“端到端”的声明略显模糊,因为核心的上下文理解与指令生成依赖于一个外部的大语言模型,这限制了系统真正的自动化程度和独立性。

📌 核心摘要

  1. 问题:自动化多角色有声书生成面临两大挑战:如何从文本描述自动获取匹配角色的声音音色,以及如何根据叙事上下文生成情感表达丰富、语调自然的语音。
  2. 方法核心:提出DeepDubbing系统,包含两个核心模型:(1) 基于条件流匹配的Text-to-Timbre (TTT)模型,从结构化文本(如“中年男性,将军,霸气”)生成说话人音色嵌入;(2) 上下文感知指令TTS (CA-Instruct-TTS)模型,该模型以音色嵌入、目标文本和由LLM生成的情感场景指令为输入,合成表达性语音。
  3. 创新点:首次系统化解决有声书中“文本到音色”映射问题;将细粒度情感场景指令融入TTS过程,提升语境适应性;发布支持这两个新任务的合成数据集BookVoice-50h。
  4. 主要实验结果:在内部大规模数据集上,TTT-Qwen3-0.6B编码器在性别、年龄准确率和角色匹配度(CMS)上均优于T5和Roberta变体(表2)。CA-Instruct-TTS在自然度(MOS-N: 3.33 vs 3.10)和情感表达(MOS-E: 4.15 vs 3.67)上优于无指令基线(表3),同时保持相近的词错误率(WER: 2.54% vs 2.39%)。 表2: TTT模型在不同年龄段的性能比较
    方法性别准确率(%)↑年龄准确率(%)↑角色匹配度(CMS)↑
    TTT-T5-Large儿童90.00, 青年98.75, 中年99.38, 老年98.75儿童23.13, 青年77.50, 中年57.50, 老年46.882.38±0.04
    TTT-Roberta-Large儿童98.13, 青年95.63, 中年100.00, 老年100.00儿童16.25, 青年77.50, 中年75.63, 老年69.382.36±0.04
    TTT-Qwen3-0.6B儿童96.25, 青年100.00, 中年100.00, 老年100.00儿童74.38, 青年74.38, 中年90.00, 老年73.132.87±0.04
    表3: CA-Instruct-TTS与基线的主观客观评分比较
    方法WER↓MOS-N↑ (自然度)MOS-E↑ (情感)
    :—:—:—:—
    CA-TTS (基线)2.39%3.10±0.053.67±0.07
    CA-Instruct-TTS2.54%3.33±0.054.15±0.08
  5. 实际意义:为有声书、广播剧等音频内容的工业化、自动化生产提供了可行的技术方案,有望大幅降低制作成本和时间。
  6. 主要局限性:TTT模型在儿童声音(尤其是性别区分)生成上表现不佳,受训练数据中真实儿童语音稀缺的限制;系统依赖外部LLM生成指令,增加了复杂性和不确定性;缺乏与当前最先进TTS系统在开放域对话或情感表达上的直接对比。


40. Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech

7.5/10 | 前25% | #语音合成 | #流匹配 | #说话人识别 #音频安全

👥 作者与机构

  • 第一作者:Myungjin Lee (梨花女子大学 AI与软件学院)
  • 通讯作者:Jiyoung Lee (梨花女子大学 AI与软件学院)
  • 作者列表:Myungjin Lee (梨花女子大学 AI与软件学院), Eunji Shin (梨花女子大学 AI与软件学院), Jiyoung Lee† (梨花女子大学 AI与软件学院) (* 标记为共同第一作者,† 标记为通讯作者)

💡 毒舌点评

这篇论文巧妙地将大语言模型中的“激活转向”思想移植到零样本TTS的安全场景,提供了一种“即插即忘”的优雅解决方案,免去了昂贵的重新训练,这是其最大的工程和实用价值。然而,方法的理论基石略显单薄——其核心假设“身份信息主要编码在FFN层”依赖于一篇同期引用的、尚未完全验证的分析,使得整个转向机制的普适性打上问号;此外,实验仅在F5-TTS上完成,对于其他TTS架构是否同样有效,仍是未知数。

📌 核心摘要

  1. 要解决的问题:零样本文本到语音(TTS)模型能高度逼真地模仿任意说话人的声音,这带来了严重的隐私和安全风险,可能导致未授权的语音生成。现有应对方案如水印(事后追溯)、语音匿名化(身份替换)和基于训练的遗忘(成本高、无法处理未见说话人)均存在不足。本文旨在提出一种高效、可扩展的“拒绝生成”机制。
  2. 方法核心:提出TruS,一个免训练的、在推理时进行干预的说话人遗忘框架。其核心思想是:在TTS模型内部,通过一组已知“保留”说话人的语料构建一个代表“正常”说话人身份的ID原型嵌入。当遇到请求“退出”(opt-out)的未知说话人时,计算其激活与ID原型的差异,得到一个身份特定的转向向量。在生成过程中,动态选择那些身份信号显著的层和时间步,将当前激活在转向向量方向上的投影分量减去,从而抑制该目标身份信息的输出,同时保留语言内容和韵律情感。
  3. 与已有方法相比新在哪里:
    • 范式转变:从数据删除(重训练)转向推理时控制。
    • 免训练与即插即用:无需任何重训练或微调,可直接应用于现有TTS模型,极大降低了部署成本和时间。
    • 处理未见说话人:首次在零样本TTS遗忘任务中,能够有效处理训练集中未出现过的、来自外部的opt-out说话人请求,更具现实意义。
    • 动态与自适应:通过动态阈值(基于层间相似度统计)自动选择干预点,比固定规则的转向(如EmoSteer)更精细,避免了对生成质量的过度破坏。
  4. 主要实验结果:
    • 在已见opt-out说话人上,TruS(SIM-SO: 0.477)与需要重训练的TGU(SIM-SO: 0.510)相比,在身份抑制上更有效,同时WER(语言保真度)更好(3.25 vs 4.03),且训练时间成本为零。但SGU(SIM-SO: 0.106)抑制更强,但破坏了保留说话人的语音质量(SIM-R大幅下降)。
    • 关键突破在于对未见opt-out说话人(LibriSpeech)的泛化能力:TruS将SIM-UO从基线的0.668显著降低至0.488,Spk-ZRF-UO从0.906提升至0.913,证明其可推广至未知身份。
    • 在情感数据集(CREMA-D)上,TruS在抑制未见说话人身份(SIM-UO: 0.131 vs 0.217)的同时,情感相似度(SIM-Emo)几乎无损(0.723 vs 0.732),表明能较好地保留非身份属性。
    • 消融研究表明,采用“μ+σ”阈值进行层选择能达到身份抑制与语音质量的最佳平衡;ID原型的保留说话人池大小N=30时综合性能最优。
  5. 实际意义:为零样本TTS技术提供了一种用户驱动的、细粒度的隐私保护工具,允许个人明确拒绝其声音被合成,且该工具易于集成到现有系统中,为生成式语音AI的负责任部署提供了一种可扩展的技术方案。
  6. 主要局限性:
    • 方法严重依赖“说话人身份信息主要编码在FFN层”这一先验假设,该假设的普适性有待验证。
    • 实验验证仅基于F5-TTS(一种基于DiT的流匹配模型)一种架构,其有效性是否能迁移到其他主流的零样本TTS模型(如自回归模型)尚不明确。
    • 对“未见说话人”的处理需要一个“opt-out说话人”的单句参考语音,这要求opt-out用户提供一段自己的录音作为凭证,可能存在额外操作门槛。

41. InstructAudio: Unified Speech and Music Generation with Natural Language Instruction

7.5/10 | 前25% | #语音合成 | #扩散模型 | #音乐生成 #多任务学习

👥 作者与机构

  • 第一作者:Chunyu Qiang(天津大学,快手科技)
  • 通讯作者:Longbiao Wang(天津大学)
  • 作者列表:Chunyu Qiang(天津大学,快手科技),Kang Yin(快手科技),Xiaopeng Wang(快手科技),Yuzhe Liang(快手科技),Jiahui Zhao(天津大学),Ruibo Fu(中国科学院自动化研究所),Tianrui Wang(天津大学),Cheng Gong(天津大学),Chen Zhang(快手科技),Longbiao Wang†(天津大学),Jianwu Dang(天津大学)

💡 毒舌点评

这篇论文的最大亮点在于其“野心”——试图用一个统一的框架和自然语言指令,同时搞定语音合成(TTS)和音乐生成(TTM)这两个本就差异显著的任务,这在思路上确实领先。但短板也很明显:论文在展示音乐生成对比结果时,坦诚其5-20秒的生成长度可能对长时序模型不公平,这种实验设计的局限性削弱了结论的说服力;更关键的是,论文几乎未提供任何可复现的开源信息,这对于一个宣称“统一框架”的工作而言,是个不小的遗憾。

📌 核心摘要

  1. 问题:现有的文本转语音(TTS)和文本转音乐(TTM)系统在基于指令(自然语言描述)的控制方面存在显著局限。TTS模型通常依赖参考音频控制音色,属性控制能力有限;TTM模型则依赖专业标注,且两类任务长期独立开发,难以统一建模。
  2. 方法核心:提出InstructAudio,一个基于多模态扩散Transformer(MM-DiT)和条件流匹配的统一框架。它采用标准化的“指令-音素”输入格式,通过联合和单一扩散Transformer层,处理无噪的梅尔VAE潜在表示,从而在统一模型中实现语音和音乐的生成与控制。
  3. 新意:这是首个通过自然语言指令统一控制语音和音乐生成的框架。它消除了对参考音频的依赖,能通过文本指令控制音色(性别、年龄)、副语言(情感、风格、口音)和音乐(类型、乐器、节奏、氛围)等多种属性,并支持双说话人对话生成。
  4. 主要实验结果:
    • TTS任务:在Seed-TTS基准的WER指标上,InstructAudio在可控条件下达到了最佳的英文(1.52%)和中文(1.35%)错误率(见表1)。在指令控制任务上,其分类控制准确率(如性别100%、年龄86.67%、对话90%)和说话人/情感相似度均优于强基线CosyVoice2,且在LSD、MCD等失真指标上更优(见表2)。
    • TTM任务:在SongEval音乐评估基准的所有指标(连贯性、音乐性等)上均取得最佳分数。在分类控制准确率上,于歌手性别(98.89%)、年龄(97.22%)和氛围(95.00%)控制上表现突出(见表3)。
    • 综合对比:论文通过图1可视化比较,声称在多项指标上实现了TTS和TTM能力的全面领先。
  5. 实际意义:为内容创作(如生成带有特定情感和风格的旁白或背景音乐)、交互式媒体、娱乐等领域提供了一种更通用、交互更自然的音频内容生成工具,降低了专业音频制作的门槛。
  6. 主要局限性:1) 统一输入格式(纯文本指令)导致了“一对多”的映射歧义,可能牺牲了生成音频的自然度和质量(NMOS分数低于使用参考音频的基线);2) 为了联合建模,将音乐生成长度限制在5-20秒,限制了其在长时音乐生成场景的应用,并且对基线模型的评估可能不公平;3) 论文未提供开源代码、模型或数据,可复现性低。

01.模型架构

图2 InstructAudio整体架构示意图(图2)。

  • 输入:接受两种模态的输入。文本模态:对于语音任务,输入为包含说话人描述(性别、年龄、情感等)的指令文本和待合成文本;对于音乐任务,输入为包含歌曲属性(类型、乐器、情绪等)的指令文本和歌词。文本经过G2P转换为音素序列。音频模态:在训练时,输入是从真实音频中提取的梅尔VAE潜在表示,并添加了高斯噪声。
  • 核心组件:
    1. 指令编码器(Instruct Encoder):使用预训练的Qwen2.5-7B大语言模型,将自然语言指令描述编码为高维嵌入向量。
    2. 音素编码器(Phoneme Encoder):基于Zipformer,将音素序列编码为嵌入向量。指令嵌入和音素嵌入在时间维度上拼接,形成统一的文本模态条件输入 Ctext
    3. 梅尔编码器(Mel Encoder)与梅尔解码器(Mel Decoder):构成一个VAE。编码器将44.1kHz的原始波形编码为连续的潜在表示(梅尔VAE latent),实现高达1024倍的下采样。解码器负责将模型生成的潜在表示还原为音频波形。这两个模块在InstructAudio训练期间被冻结。
    4. 联合扩散Transformer(Joint Diffusion Transformer):由N2(14)层组成。每一层接收拼接后的文本嵌入 Ctext 和无噪的音频潜在表示 xt 作为输入。两种模态通过联合注意力机制进行深度交互:查询、键、值来自两个模态,经缩放点积注意力计算后,输出再分割回各自模态。这是实现跨模态对齐和条件控制的关键。
    5. 单一扩散Transformer(Single Diffusion Transformer):由N1(6)层组成。这些层只处理音频潜在表示,将联合注意力退化为自注意力,专注于提升语音和歌唱声音生成的内部质量。
  • 生成过程:采用条件流匹配。训练时,优化目标是让模型学习的速度场 接近由噪声到数据的目标速度场 u。推理时,从高斯噪声出发,通过ODE求解器,沿着学习到的路径迭代求解,最终得到目标音频的VAE潜在表示,再经解码器生成最终音频。

02.核心创新点

  1. 首个统一指令控制的语音-音乐生成框架:
    • 局限:以往TTS和TTM任务独立开发,输入控制条件异构(TTS需参考音频或简单标签,TTM需专业标注),难以统一。
    • 创新与收益:InstructAudio首次证明,通过设计标准化的“自然语言指令+音素”输入格式,可以使用同一个MM-DiT架构同时处理TTS和TTM任务,实现了跨模态的统一建模和生成。
  2. 全面的自然语言指令控制能力:
    • 局限:现有TTS模型在基于文本的细粒度属性控制(尤其是音色、对话)上不足;TTM模型控制粒度较粗或不全面。
    • 创新与收益:通过引入强大的指令编码器(Qwen2.5),模型能够解析复杂的自然语言描述,从而实现对音色(性别、年龄)、副语言(情感、风格、口音)和音乐属性(类型、乐器、节奏、氛围)的精细控制,并在TTS任务上首次实现了文本可控的双说话人对话生成。
  3. 高效的音频表征与架构设计:
    • 局限:高保真音频生成需要高效的潜空间表征。不同任务的生成质量要求不同。
    • 创新与收益:采用高下采样率(1024x)的梅尔VAE,将音频压缩到紧凑的连续潜在空间,显著提升了训练效率和重建质量。同时,创新性地设计了“联合层+单一层”的扩散Transformer结构:联合层负责跨模态理解与对齐,单一层专注于音频内部结构的精细化,这种设计在统一性和生成质量之间取得了平衡。

03.细节详述

  • 训练数据:收集了50K小时的语音数据和20K小时的音乐数据,来源于互联网。通过内部数据处理管道生成指令描述和文本/歌词标注。语音描述包含性别、年龄、情感、风格、口音属性;音乐描述包含类型、乐器、性别、年龄、节奏、氛围。音频片段长度为2-20秒,中文与英文、男性与女性比例约为1:1,90%以上为中性情感,0.5%为对话数据。统一采样率为44.1kHz。
  • 损失函数:采用条件流匹配的损失函数,即最小化模型预测速度场 与目标速度场 u 之间的均方误差:E[ ||vθ(t, Ctext, xt) - u(t, xt)||^2 ]。其中 t 是时间步。
  • 训练策略:
    • 优化器:Adam
    • 初始学习率:1e-4
    • 训练硬件:32块NVIDIA Tesla A800 80GB GPU
    • 批量大小(Batch Size):每块GPU 16
    • 学习率调度策略、warmup步数、总训练步数/轮数:论文中未提及。
  • 关键超参数:
    • 模型总参数量:1.34B
    • 条件流匹配前馈维度:1024
    • 联合扩散Transformer层数(N2):14
    • 单一扩散Transformer层数(N1):6
    • 位置编码:RoPE
    • 音素编码器:基于Zipformer,前馈维度512。
    • 梅尔编码器:处理44.1kHz波形,输出43Hz的潜在表示,实现1024倍下采样。
  • 推理细节:
    • 解码策略:使用ODE求解器(具体类型未说明)从噪声迭代求解目标VAE潜在表示。
    • 生成长度:语音和音乐均被限制在2-20秒。
    • 温度(Temperature)、Beam Size:论文中未提及。
    • 流式设置:论文中未提及。
  • 正则化或稳定训练技巧:论文中未提及除使用预训练模块和标准扩散模型训练外的特殊技巧。

04.实验结果

  • 表1:主流TTS模型在基础能力和指令控制上的对比

    模型数据(hrs)参数文本控制WER(%)↓
    G&AE&S&ADialENZH
    Ground Truth2.141.25
    MaskGCT100K Speech1B2.262.40
    E2-TTS100K Speech333M2.491.91
    F5-TTS100K Speech336M1.891.53
    ZipVoice100K Speech123M1.701.40
    CosyVoice1170K Speech416M4.293.63
    CosyVoice2167K Speech618M2.571.45
    InstructAudio50K Speech + 20K Music1.3B1.521.35
    注:G&A = Gender&Age, E&S&A = Emotion&Style&Accent, Dial = Dialog. 结论:InstructAudio是唯一支持全部文本控制维度(包括对话)的模型,并在WER指标上取得了最佳成绩,证明其基础语音合成质量高。
  • 表2:指令控制TTS任务的详细性能对比

    模型分类控制准确率(%)↑相似度↑失真/误差↓MOS↑
    GenderAgeEmotionStyleAccentDialogSpeakerEmotionLSDMCDMSEPMRQMOSNMOS
    Ground Truth100.00100.00100.00100.00100.00100.001.001.000.000.000.000.00
    CosyVoice258.3365.00100.000.680.532.577.11547.870.463.90±0.113.65±0.22
    InstructAudio100.0086.6783.3386.67100.0090.000.760.711.885.71437.580.333.73±0.243.46±0.32
    结论:InstructAudio在几乎所有控制准确率指标上大幅领先CosyVoice2(后者不支持性别、年龄和对话控制)。在说话人和情感相似度上也更高。在所有失真误差指标上均优于CosyVoice2。CosyVoice2的主观质量(QMOS)和自然度(NMOS)更高,论文认为这是因为其使用了参考音频输入,而InstructAudio是纯文本控制,存在“一对多”歧义。
  • 表3:文本转音乐任务的性能对比

    模型数据(hrs)参数分类控制准确率(%)↑SongEval↑MOS↑
    GenreInstrumentGenderAgeRhythmAtmosphereCohMusMemClaNatQMOSMMOS
    Ground Truth100.00100.00100.00100.00100.00100.003.603.523.563.433.34
    DiffRhythm+120K Music1B51.3381.6722.2244.4493.3387.222.682.612.572.482.373.04±0.462.79±0.54
    ACE-Step100K Music3B94.4485.5696.1195.0089.4490.562.892.872.832.772.713.30±0.282.88±0.20
    InstructAudio50K Speech + 20K Music1.3B92.7883.8998.8997.2294.4495.003.082.983.002.892.822.82±0.262.91±0.35
    结论:InstructAudio在歌手性别、年龄、节奏和氛围控制上取得了最高准确率。在SongEval基准的所有5个指标上均获得最佳分数。在主观评价中,其音乐性(MMOS)得分最高,但感知质量(QMOS)低于ACE-Step。论文指出其音乐测试片段较短(5-20秒),可能对优化长时音乐的ACE-Step和DiffRhythm+不利。
  • 图1 (pdf-image-page1-idx0) :模型能力对比雷达图。 图1 说明:此图将TTS和TTM的多个性能指标(如WER、控制能力、SongEval子指标)归一化到[0,1]区间进行可视化。红色线条代表InstructAudio,它在大部分指标维度上都达到了最外圈(最优),尤其在“支持所有评估维度”(TTS-Control和TTM属性)上表现突出,直观展示了其“统一”和“全能”的特点。

05.评分理由

  • 学术质量:6.0/7:创新性强,首次实现了基于自然语言指令的统一语音-音乐生成框架,技术路线(MM-DiT+条件流匹配)先进且选择合理。实验设计全面,覆盖了多个维度的控制能力和生成质量评估。扣分点主要在于:1)音乐生成任务的对比存在潜在的不公平性(生成长度限制);2)TTS对比中,部分基线不支持指令控制,控制能力对比的全面性有限;3)部分关键训练细节(如学习率调度)缺失。
  • 选题价值:2.0/2:选题极具前沿性和实用价值。统一语音和音乐生成、采用自然语言交互,是生成式音频领域的明确趋势,能显著降低创作门槛,应用前景广阔。对音频和语音领域的读者来说,这是一个高度相关且启发性强的工作。
  • 开源与复现加成:-0.5/1:扣分项明确。论文未提供代码、模型权重、训练数据集的获取链接。仅提供了音频样本演示页面。训练超参数(如学习率调度、训练步数)和硬件训练时长等细节不足,极大地阻碍了论文的复现。这是其主要短板之一。

开源详情

  • 代码:论文中未提及代码仓库链接。
  • 模型权重:论文中未提及公开的模型权重下载地址。
  • 数据集:论文中使用了自收集的50K小时语音和20K小时音乐数据,但未提及是否会公开数据集或获取方式。
  • Demo:提供了在线音频示例演示页面:https://qiangchunyu.github.io/InstructAudio/
  • 复现材料:论文给出了模型参数量(1.34B)、主要架构层数、优化器、初始学习率和GPU数量,但缺少学习率调度策略、训练步数/轮数、梯度裁剪等关键训练细节,复现材料不充分。
  • 论文中引用的开源项目:引用了多个开源模型(如CosyVoice2, ACE-Step, DiffRhythm+)和工具(如Resemblyzer, emotion2vec, Qwen2.5),但未提及是否在代码或模型中集成了其他特定开源项目。
  • 总结:论文中未提及开源计划(如代码、模型、数据的开源时间表)。

42. GLA-GRAD++: An Improved Griffin-Lim Guided Diffusion Model for Speech Synthesis

7.5/10 | 前25% | #语音合成 | #扩散模型 | #领域适应

👥 作者与机构

  • 第一作者:Teysir Baoueb(LTCI, T´el´ecom Paris, Institut polytechnique de Paris, France)
  • 通讯作者:未说明
  • 作者列表:Teysir Baoueb(LTCI, T´el´ecom Paris, Institut polytechnique de Paris, France)、Xiaoyu Bie(同上)、Mathieu Fontaine(同上)、Ga¨el Richard(同上)

💡 毒舌点评

这篇论文的亮点在于将经典的信号处理算法(Griffin-Lim)与前沿的生成模型(扩散模型)结合得干净利落,通过一个“简单但关键”的修改(在预测y0项上进行一次性校正)同时解决了速度和鲁棒性两个痛点,在out-of-domain测试集上的提升相当亮眼。短板在于实验对比的基线不够丰富(未与同期的一些快速扩散声码器如FreGrad、SWave等直接对比),且未开源代码和模型权重,对于宣称“零样本”的方法,其实用价值评估需要等待社区验证。

📌 核心摘要

本文旨在解决基于扩散模型的声码器在条件梅尔频谱图与训练分布不匹配时性能下降且计算成本高的问题。其核心方法GLA-Grad++通过在扩散反向过程的早期,将神经网络预测的“干净语音”(预测y0)替换为从条件梅尔频谱图中通过一次Griffin-Lim算法(GLA)恢复的音频信号(˜x),来引导生成过程。与先前工作GLA-Grad(在多个扩散步骤中重复应用GLA)相比,本方法仅在扩散开始前应用一次GLA,显著加速了生成。实验表明,GLA-Grad++在感知语音质量(PESQ)和短时客观可懂度(STOI)上持续优于WaveGrad和GLA-Grad基线,尤其在未见过的说话人(VCTK数据集)场景下优势明显。例如,在VCTK上,GLA-Grad++的PESQ得分(3.772)相比WaveGrad(3.453)提升了约9.2%。该工作的实际意义在于为扩散声码器提供了一种无需重新训练、即插即用的增强方案,能有效提升合成语音在跨领域场景下的稳定性和质量。其主要局限性是方法性能(尤其是阶段切换点)对单个音频文件可能存在依赖性,论文建议未来可自适应选择最佳切换点。


43. Int-MeanFlow: Few-Step Speech Generation with Integral Velocity Distillation

7.5/10 | 前25% | #语音合成 | #流匹配 | #知识蒸馏 #流式处理

👥 作者与机构

  • 第一作者:未说明(论文作者列表未按顺序标注,首位作者为Wei Wang)
  • 通讯作者:未说明
  • 作者列表:Wei Wang(字节跳动 ByteDance),Rong Cao(字节跳动 ByteDance),Yi Guo(字节跳动 ByteDance),Zhengyang Chen(字节跳动 ByteDance),Kuan Chen(字节跳动 ByteDance),Yuanyuan Huo(字节跳动 ByteDance)

💡 毒舌点评

亮点:精准地找到了MeanFlow在TTS落地的两大“卡脖子”问题(JVP内存爆炸、自举不稳定),并给出了一个工程上非常友好的“绕道”方案(用离散积分近似、去掉JVP),效果立竿见影。短板:提出的方法本质上是对教师模型推理路径的“离线”蒸馏和近似,其泛化性和在更复杂生成任务上的极限性能仍待观察,实验也仅限于两个特定模型架构。

📌 核心摘要

  1. 问题:基于流匹配的语音合成模型(Flow-based TTS)生成质量高,但推理速度因迭代采样(多次函数评估,NFE)而受限。近期的MeanFlow模型通过建模平均速度来加速生成,但将其直接应用于TTS面临两个挑战:训练时计算Jacobian-vector product(JVP)带来巨大的GPU内存开销,且依赖自举(self-bootstrap)过程导致训练不稳定。
  2. 方法核心:提出IntMeanFlow框架,通过“积分速度蒸馏”让学生模型学习平均速度。其核心是用教师模型在时间区间[t, r]上的离散迭代步进所积累的总位移,来近似积分速度(平均速度),作为训练目标。这完全避免了JVP计算和训练中的自举过程。同时,提出最优步骤搜索(OS3)算法,通过三分搜索自动优化模型的采样步长分布。
  3. 新意:与直接应用MeanFlow相比,IntMeanFlow用离散积分近似替代了连续JVP计算,去除了自举依赖,显著提升了训练稳定性和内存效率。与传统蒸馏方法相比,它不需要辅助模型或固定训练步长,且与现有流匹配模型兼容性更好。
  4. 主要实验结果:在F5-TTS(text2mel任务)上,IntMeanFlow将推理步数从32步减少至3步,实时因子(RTF)从0.243降至0.021(约11.6倍加速),同时WER和SIM-o指标仅有轻微下降(例如,Base模型WER从1.87%升至1.60%,SIM-o从0.67降至0.65)。在CosyVoice2(token2mel任务)上,实现了1步推理,RTF从0.510降至0.026(约19.6倍加速),性能与教师模型接近。OS3算法在多个设置下带来了显著的指标提升。
  5. 实际意义:为高保真流匹配语音合成模型提供了一种高效、稳定的少步推理方案,将推理速度提升一个数量级,使其更适用于实时和流式应用场景。
  6. 主要局限性:方法的有效性可能依赖于教师模型的质量和离散积分的精度(受步数n影响)。论文中未探讨该方法在更复杂任务(如语音转换、零样本克隆)上的泛化性,也未公开代码和详细训练配置,限制了可复现性。


44. Training Flow Matching Models with Reliable Labels via Self-Purification

7.5/10 | 前25% | #语音合成 | #流匹配 | #数据集 #鲁棒性

👥 作者与机构

  • 第一作者:Hyeongju Kim(Supertone, Inc.;通讯邮箱:login588@snu.ac.kr,机构可能与首尔大学相关)
  • 通讯作者:Hyeongju Kim(Supertone, Inc.)
  • 作者列表:Hyeongju Kim(Supertone, Inc.)、Yechan Yu(Supertone, Inc.)、June Young Yi(Supertone, Inc.)、Juheon Lee(Supertone, Inc.)

💡 毒舌点评

亮点在于其“自我净化”的哲学——让模型在训练中自己学会识别并“扔掉”错误的标签,这种无需外部模块的简洁设计在嘈杂数据时代颇具吸引力。短板是其核心机制(L_cond > L_uncond 作为过滤阈值)的普适性和鲁棒性边界尚未在更广泛的生成任务(如图像生成)上得到充分验证,显得有些“TTS-centric”。

📌 核心摘要

  1. 要解决什么问题:条件生成模型(如TTS)训练时,数据集中的错误标签(噪声标签)会严重损害模型性能,而人工清洗大规模数据集成本高昂。
  2. 方法核心是什么:提出自净化流匹配(SPFM)方法。其核心思想是,在训练过程中,对于一个数据样本(x, c),如果提供其标签c的条件流匹配损失L_cond高于不提供任何标签的无条件损失L_uncond,则认为标签c不可靠。对于这类样本,模型仅使用数据x进行无条件训练,从而过滤掉噪声标签的影响。
  3. 与已有方法相比新在哪里:现有方法大多需要预训练模型、额外的分类器或复杂的标签校正模块。SPFM则完全在训练过程中进行,利用模型自身的条件和无条件损失差异作为“检测器”,无需任何外部组件,实现简单且易于集成。
  4. 主要实验结果如何:在合成二维数据集(40%标签噪声)上,SPFM显著提升了生成样本对指定条件的忠实度(见图2)。在真实的TTS任务上,基于TITW数据集(包含噪声的真实语音数据),SPFM在SupertonicTTS基线上进一步提升了性能。具体地,在更嘈杂的TITW-Hard训练集上,加入SPFM后,语音质量指标UTMOS从3.50提升至3.55,DNSMOS从2.88提升至2.91,词错误率(WER)从7.60%显著降低至6.86%。论文声称建立了该数据集上的新基准。
  5. 实际意义是什么:提供了一种在模型训练阶段动态、自动地处理噪声标签的有效策略,能提升模型在真实嘈杂数据上的鲁棒性和最终性能,对于依赖大规模网络爬取或自动标注数据的生成式AI任务具有实用价值。
  6. 主要局限性是什么:论文自述,当前仅使用简单的固定阈值(L_cond - L_uncond > 0)和单一时间步(t’=0.5)进行判断,更复杂的自适应阈值或多时间步评估未被探索。此外,验证主要集中在语音合成领域,其在更广泛的条件生成任务中的泛化能力有待进一步研究。

45. Hierarchical Discrete Flow Matching For Multi-Codebook Codec-Based Text-To-Speech

7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #音频生成

👥 作者与机构

  • 第一作者:未说明(论文中列出了多位作者,未明确指出第一作者)
  • 通讯作者:未说明(论文中未明确指出)
  • 作者列表:Joun Yeop Lee(三星研究院,三星电子)、Heejin Choi(三星研究院,三星电子)、Min-Kyung Kim(三星研究院,三星电子)、Ji-Hyun Lee(三星研究院,三星电子)、Hoon-Young Cho(三星研究院,三星电子)

💡 毒舌点评

该论文巧妙地将RVQ编解码器的“由粗到细”先验知识,内化为流匹配模型的训练课程与推理调度,逻辑清晰且实验增益显著,这是其最亮眼的工程创新。然而,论文对训练细节的“黑箱化”处理(如模型具体大小、完整超参数列表、训练时长)和仅有演示页面而无代码公开的现状,让其学术严谨性和社区复现性大打折扣。

📌 核心摘要

  1. 要解决什么问题:现有将离散流匹配(DFM)应用于基于残差向量量化(RVQ)的文本到语音(TTS)时,通常将所有码本视为同等,忽略了浅层码本(捕获粗结构)与深层码本(细化细节)之间的层次依赖关系,导致性能受限。
  2. 方法核心是什么:提出分层离散流匹配(H-DFM)。核心包括两方面:训练阶段,采用随机粗细模式课程学习——粗模式下遮蔽细码本噪声样本,仅更新粗码本头;细模式下用真实粗码本条件化,仅更新细码本头。推理阶段,采用粗偏向的两阶段调度——先用大部分步骤(Bc步)稳定粗码本(全局结构),再用少量步骤(Bf步)细化细码本。
  3. 与已有方法相比新在哪里:首次系统性地将RVQ的层次结构显式对齐到DFM的训练与推理过程中。相比直接应用DFM(F5-DFM),H-DFM通过架构(多头)和策略(课程学习、偏向调度)强制模型学习码本间的依赖关系,而非独立预测。
  4. 主要实验结果如何: 在零样本TTS评估中(NFE=32,粗细比例1/16),H-DFM相比基线显著提升。 关键客观指标对比:
    模型WER (%) ↓SECS ↑UTMOS ↑
    F5-TTS (连续FM基线)4.5590.6053.853
    F5-DFM (朴素离散FM)4.4340.5644.013
    F5-H-DFM (本文方法)3.0360.6094.205
    • H-DFM在可懂度(WER)和说话人相似度(SECS)上均取得最优,并在自然度(UTMOS)上也有较大提升。
    • 消融实验表明,粗细推理比例(rcf=1/16)优于更平衡的比例(1/8, 1/2),验证了粗偏向策略的有效性。
  5. 实际意义是什么:为基于RVQ的高质量、非自回归TTS提供了一种更高效的解码方案。通过尊重编解码器的设计原理,可以在固定计算预算下获得更好的合成质量,对追求低延迟和高质量语音合成的工业应用有直接价值。
  6. 主要局限性:方法依赖于特定编解码器(HiFi-Codec)的固定层次结构和预先定义的粗细划分;训练与推理调度中的超参数(如pc=0.7, rcf=1/16)需要手动调整;论文未详细公开所有训练细节和模型参数,限制了可复现性。

46. Frame-Stacked Local Transformers for Efficient Multi-Codebook Speech Generation

7.5/10 | 前25% | #语音合成 | #自回归模型 | #语音大模型 #局部Transformer

👥 作者与机构

  • 第一作者:Roy Fejgin(NVIDIA)
  • 通讯作者:Roy Fejgin (rfejgin@nvidia.com), Paarth Neekhara (pneekhara@nvidia.com)
  • 作者列表:Roy Fejgin(NVIDIA)、Paarth Neekhara(NVIDIA)、Xuesong Yang(NVIDIA)、Edresson Casanova(NVIDIA)、Ryan Langman(NVIDIA)、Jaehyeon Kim(NVIDIA)、Subhankar Ghosh(NVIDIA)、Shehzeen Hussain(NVIDIA)、Jason Li(NVIDIA)

💡 毒舌点评

亮点在于其工程化的系统思维和扎实的消融实验,将“局部Transformer”这个相对概念性的模块,通过与“帧堆叠”的结合,转化为了可量化的速度提升(高达5.5x)和可操作的设计指南,非常实用。短板是MaskGIT变体在高堆叠因子(4x)下的表现(如MOS和SSIM的下降)显得有些“拖后腿”,暗示了迭代式非自回归方法在建模更复杂依赖时仍面临训练和调参的挑战,且论文未能与当前最前沿的TTS系统(如VALL-E 2等)进行直接的质量对比。

📌 核心摘要

本文旨在解决基于大语言模型的语音合成系统中,多码本声学码预测所面临的依赖性建模与解码效率的矛盾。方法核心是引入一个轻量的“局部Transformer”来替代传统的并行预测头,该LT以迭代方式(自回归或MaskGIT)对单帧内的多个码本进行依赖性建模;同时,利用LT分担计算负载,让主Transformer预测多帧(帧堆叠),从而提升整体吞吐率。与已有方法相比,新在系统性地评估了两种LT架构(AR与MaskGIT)与不同帧堆叠因子的组合,并在控制模型总参数量的前提下进行了公平比较。主要实验结果显示:1)所有LT模型在Fréchet Distance(FD)指标上均优于并行预测基线;2)使用AR LT且堆叠因子为2时,在SSIM(0.757 vs 0.695)和MOS(3.70 vs 3.46)上与基线持平或更优,同时速度快2.1倍;3)堆叠因子为4时,AR LT仍能保持较好的MOS(3.71),而MaskGIT的MOS显著下降(3.41)。实际意义在于为工业部署提供了明确的指南:质量优先选AR LT(无堆叠),速度与质量平衡选2x堆叠AR LT,极致速度可选4x堆叠LT。主要局限性是MaskGIT方法在高堆叠因子下性能不稳定,且研究未涉及与最新SOTA TTS模型的横向对比。


47. Direct Preference Optimization For Speech Autoregressive Diffusion Models

7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本

👥 作者与机构

  • 第一作者:Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed)
  • 通讯作者:Shuai Wang(南京大学智能科学与技术学院)
  • 作者列表:
    • Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed)
    • Dongya Jia(字节跳动Seed)
    • Xiaoqiang Wang(字节跳动Seed)
    • Chenpeng Du(字节跳动Seed)
    • Shuai Wang(南京大学智能科学与技术学院;深圳湾区研究院)
    • Zhuo Chen(字节跳动Seed)
    • Haizhou Li(香港中文大学(深圳)SDS, SRIBD, SAI;深圳湾区研究院)

💡 毒舌点评

亮点在于首次成功将DPO“移植”到语音自回归扩散模型上,用实验证明了其能显著提升表达力(F0方差翻倍)和鲁棒性(CER降25%),开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释,且开源信息仅限音频示例,核心代码与模型未公开,影响了工作的可复现性和影响力。

📌 核心摘要

  1. 问题:当前基于自回归扩散模型(ARDM)的零样本TTS虽性能领先,但生成的语音常与人类偏好不对齐,例如在给定情感提示时仍可能产出单调的语音,缺乏表达力且在处理长难句时鲁棒性不足。

  2. 方法核心:提出ARDM-DPO,一种专为语音ARDM设计的直接偏好优化方法。它将DPO从离散LLM或通用扩散模型扩展到连续Token的自回归扩散框架中,推导了适用于v-prediction(如DiTAR模型)的训练目标函数。

  3. 新意:这是首个针对TTS领域ARDM的偏好对齐方法。它无需训练独立的奖励模型,而是直接利用偏好数据微调模型,使模型输出分布向人类偏好的样本偏移。

  4. 实验结果:在DiTAR基座模型上进行实验。任务A(提升表达力):ARDM-DPO将F0方差从14.2 Hz提升至29.2 Hz(近翻倍),同时说话人相似度(SIM)仅从0.770微降至0.765,WER从5.17%降至3.73%。任务B(提升鲁棒性):在复杂文本测试集上,CER从8.37%降至6.32%(降幅25%)。主观评估显示,任务A中表达力获显著提升,任务B中自然度和说话人相似度得以保持。主要结果见表1和表2。 表1:任务A(提升F0方差)部分结果

    方法F0V (Hz) ↑SIM ↑WER (%) ↓KL ↓
    Base Model14.20.7705.17
    Best-of-1622.50.7704.74
    Best-of-6426.60.7704.93
    DPO 200 steps (β=200)29.20.7653.730.010

    表2:任务B(提升文本似然/鲁棒性)部分结果

    方法NLL ↓SIM ↑CER ↓KL ↓
    Base Model0.550.7118.37
    Best-of-8 (NLL)0.270.7126.79
    DPO 9000 steps (β=1600)0.320.7126.320.009
  5. 实际意义:为提升TTS模型的输出质量和可控性提供了一种高效、直接的微调方法,有助于构建更自然、更可靠的语音生成系统。

  6. 局限性:ARDM-DPO在Task A(表达力优化)上的训练过程不稳定,需要早停以避免质量退化;论文观察到DPO训练中winning和losing样本的扩散损失均上升,其机理未明;偏好数据集的构建对性能至关重要,本文未深入探讨其最优构造策略。


48. MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control

7.0/10 | 前25% | #语音合成 | #扩散模型 | #个性化生成 #多模态

👥 作者与机构

  • 第一作者:Renjie Lu(1平安科技(深圳)有限公司, 2中国科学技术大学)
  • 通讯作者:Jianzong Wang(1平安科技(深圳)有限公司), Shangfei Wang(2中国科学技术大学)
  • 作者列表:Renjie Lu(平安科技、中国科学技术大学), Xulong Zhang(平安科技), Xiaoyang Qu(平安科技), Jianzong Wang(平安科技), Shangfei Wang(中国科学技术大学)

💡 毒舌点评

这篇论文的亮点在于明确指出了现有方法“风格与语义纠缠”的痛点,并设计了精巧的两阶段解耦训练和分层调制机制来解决,实验上也取得了不错的指标提升。短板在于论文中部分关键训练细节(如优化器、学习率调度、硬件配置)语焉不详,且核心代码与模型完全未开源,极大地限制了其可复现性和社区验证的价值。

📌 核心摘要

  1. 问题:现有的音频驱动说话脸生成方法存在“说话风格”与“语义内容”在面部运动中纠缠的问题,导致将一个人的风格迁移到新的语音内容时,唇形同步精度下降,面部运动不自然。
  2. 方法核心:提出MirrorTalk,一个基于条件扩散模型的生成框架。其核心是 语义解耦风格编码器 和 分层调制策略。
  3. 创新点:1) SDSE通过两阶段训练,从参考视频中提取与语义内容无关的纯粹说话风格表示;2) 在扩散模型的去噪过程中,采用空间-时间分层调制策略,根据面部区域(上/下脸)和去噪时间步,动态平衡音频和风格特征的贡献。
  4. 实验结果:在CREMA-D和HDTF数据集上,MirrorTalk在唇形同步(M-LMD, Syncconf)和个性化保持(StyleSim)上均优于Wav2Lip、SadTalker、Echomimic等基线方法。例如,在HDTF上StyleSim达到0.958,远超基线的最高值0.866。
  5. 实际意义:能够生成既准确同步音频,又高度还原目标说话人独特面部动态和表情的个性化数字人视频。
  6. 主要局限性:1) 对“风格”的定义和解耦依赖于3DMM参数,可能无法捕捉所有微表情;2) 论文中未提供详细的训练配置,如优化器、学习率、batch size等;3) 代码和模型未开源,限制了复现和应用。

49. Residual Tokens Enhance Masked Autoencoders for Speech Modeling

7.0/10 | 前50% | #语音合成 | #掩码自编码器 | #自监督学习 #语音增强

👥 作者与机构

  • 第一作者:Samir Sadok(Inria at Univ. Grenoble Alpes, CNRS, LJK, France)
  • 通讯作者:未说明(论文中未明确标注通讯作者)
  • 作者列表:Samir Sadok(Inria at Univ. Grenoble Alpes, CNRS, LJK, France)、Stéphane Lathuilière(Inria at Univ. Grenoble Alpes, CNRS, LJK, France)、Xavier Alameda-Pineda(Inria at Univ. Grenoble Alpes, CNRS, LJK, France)

💡 毒舌点评

这篇论文提出了一个思路清晰、逻辑自洽的改进(用残差令牌捕获“边角料”信息),并通过在语音去噪任务上的初步应用证明了其有效性,这是其主要亮点。然而,其学术贡献更像在一个已有框架(AnCoGen)上做了一个精致的“补丁”,缺乏颠覆性的架构创新或在大规模基准上的压倒性优势,说服力和影响力因而受限。

📌 核心摘要

  1. 要解决什么问题:现有的语音建模方法主要依赖于显式定义的属性(如音高、内容、说话人身份),但这些无法完全捕捉自然语音的丰富性,遗漏了音色细微变化、噪声、情感、发音细节等“残差”信息。
  2. 方法核心是什么:提出RT-MAE,在掩码自编码器(MAE)框架中引入一组可训练的连续“残差令牌”(R)。这些令牌通过交叉注意力机制从梅尔频谱图中聚合信息,专门用于编码显式属性(A)未能解释的部分。同时,采用基于dropout的正则化策略,防止模型过度依赖残差令牌,确保生成过程保持可控性。
  3. 与已有方法相比新在哪里:不同于以往依赖复杂解耦损失或多任务学习来分离残差因素的方法,RT-MAE将残差信息表示为MAE中的离散令牌,提供了一种更灵活、更易于集成的表示方式。它明确将残差建模与掩码预测范式结合,并设计了控制信息流的正则化机制。
  4. 主要实验结果如何:
    • 在语音合成任务上,RT-MAE在LibriSpeech和EmoV-DB数据集上相比基线AnCoGen,在各项指标(STOI, N-MOS, SBS, COS)上均有提升。例如,在LibriSpeech上,N-MOS从4.04提升至4.32,说话人相似度(COS)从0.81提升至0.86。
    • 消融实验证实,当推理时同时使用属性和残差令牌(✓/✓)时效果最佳;仅使用残差令牌(✗/✓)时性能大幅下降,但保留了较高的说话人相似度,表明其编码了互补信息。
    • 论文将该框架扩展到语音去噪:引入一个额外的、专门建模噪声的残差令牌Rnoise,在推理时将其关闭即可实现去噪。在LibriMix测试集上,其N-MOS(4.25)和SIG(4.23)指标优于对比的AnCoGen和DCCRNet等方法。
    • 论文未提供与更多语音合成或增强领域SOTA方法的全面对比。
  5. 实际意义是什么:该工作为语音建模提供了一个简单有效的框架,用于捕获和控制那些难以显式定义的语音特征。在语音合成中,它能提升自然度和保真度;在语音增强中,它通过将噪声建模为一种可关闭的残差,实现了可控的降噪,展示了实际应用潜力。
  6. 主要局限性是什么:1) 与AnCoGen的改进相对渐进,未证明在更广泛或更标准的基准上的普适性优势;2) 对残差令牌具体编码了何种信息的分析和可视化不足;3) 语音去噪实验中,对比的方法和场景有限,其竞争力有待在更多挑战性条件下验证。

50. SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word Level

7.0/10 | 前50% | #语音合成 | #基准测试 | #模型评估 #数据集

👥 作者与机构

  • 第一作者:未说明(论文中作者列表未排序,未明确标注第一作者)
  • 通讯作者:未说明(论文中未提供作者邮箱或通讯作者标识)
  • 作者列表:Hitomi Jin Ling Tee(未说明具体机构,但与列表其他作者共享同一单位)、Chaoren Wang(未说明)、Zijie Zhang(未说明)、Zhizheng Wu(未说明)。根据作者列表后的单位信息,所有作者均隶属于:The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))。论文中未提及具体实验室或部门。

💡 毒舌点评

亮点:该工作敏锐地指出了WER等传统指标的“及格线陷阱”——WER低不代表信息传递正确,并为此构建了一个更贴近真实世界信息获取需求的“听力理解考试”式评测框架,为TTS评估开辟了新的必要维度。短板:评测高度依赖人工标注,成本高昂且难以规模化;所设计的评测集(新闻语料)虽然典型,但场景相对单一,其结论向其他领域(如对话、有声书)的泛化性有待验证。

📌 核心摘要

  1. 问题:当前TTS系统的可懂度评估主要依赖于词错误率(WER)等低级指标,这些指标无法衡量合成语音是否准确传递了关键信息(如专有名词、数字),导致评估结果与用户真实理解需求脱节。
  2. 方法:论文提出了一种名为SP-MCQA(Spoken-Passage Multiple-Choice Question Answering)的主观评估框架。评估者聆听合成的新闻段落语音,然后回答基于该段落关键信息生成的多项选择文本题,以评估信息传递的准确性。同时,构建了配套的评测数据集SP-MCQA-Eval(8.76小时新闻语音,包含大量非常规文本)。
  3. 创新:不同于传统的逐词准确率测量,SP-MCQA从“语义理解和信息提取”的角度评估TTS,是对WER的有效补充。其配套数据集专门设计用于挑战模型在专有名词、数字等关键信息上的处理能力。
  4. 主要实验结果:实验发现,WER最低的模型(FishSpeech)在SP-MCQA准确率(SP-MCQA ACC)上表现最差(81.19%),而WER较高的CosyVoice 2在SP-MCQA ACC上表现最好(90.40%)。这证明了WER与关键信息准确性的严重不匹配。错误分析显示,语音错误是所有模型的主要挑战,而不同架构(自回归vs非自回归)的模型在语义/结构错误上表现不同。具体结果如下表:
    系统SP-MCQA ACC (%) ↑WER (%) ↓S-SIM ↑DNSMOS P.835 OVRL ↑
    Ground-Truth92.0458.0670.7102.955
    F5-TTS87.13911.2670.6543.202
    MaskGCT89.2607.3510.7103.081
    CosyVoice 290.3999.0440.5233.334
    FishSpeech81.1945.7390.5223.242
  5. 实际意义:为TTS系统提供了更贴近真实应用需求的评估标准,能更有效地指导模型改进方向(例如,加强文本归一化和罕见语音模式的处理),促使研究超越“刷低WER”的阶段。
  6. 局限性:评测过程需要大量人工标注,成本高、效率低;数据集虽标注为开源,但评测流程的完全复现(包括问题生成)仍需依赖非公开工具;研究目前局限于英语新闻语料。

51. SPAM: Style Prompt Adherence Metric for Prompt-Based TTS

7.0/10 | 前50% | #语音合成 | #对比学习 | #模型评估 #大语言模型

👥 作者与机构

  • 第一作者:Chanhee Cho†(Chung-Ang University)
  • 通讯作者:Bugeun Kim(Chung-Ang University)
  • 作者列表:Chanhee Cho†(Chung-Ang University)、Nayeon Kim†(Chung-Ang University)、Bugeun Kim(Chung-Ang University)。其中†表示“同等贡献”。

💡 毒舌点评

亮点:精准抓住了基于提示的语音合成评估中的核心痛点——现有方法缺乏“合理性”(与人类判断一致)和“忠实性”(对语义变化敏感),并设计了针对性的解决方案。短板:实验说服力打了折扣,既没有与当前流行的“LLM-as-a-judge”评估范式(如用GPT-4o直接打分)进行对比,也缺少对自身方法在极端或边界案例下的鲁棒性分析,使得结论的普适性存疑。

📌 核心摘要

  1. 要解决的问题:现有的基于提示的语音合成(Prompt-based TTS)系统缺乏可靠、自动化的指标来评估合成语音对文本提示(尤其是风格描述)的遵循程度。传统MOS评估成本高昂,现有自动方法或依赖主观的嵌入聚类分析,或使用可能不忠实于提示内容的LLM评估。
  2. 方法核心:提出Style Prompt Adherence Metric(SPAM),一个受CLAP启发的对比学习框架。它将语音波形、说话人特征和转录文本编码后融合,再通过并行分支提取和强化全局波形、语速、音高、能量等声学属性特征,最终与使用Llama-3编码的文本提示嵌入计算相似度。
  3. 与已有方法相比新在哪里:a) 显式地因子化并监督学习关键的声学属性(音高、语速、能量),确保评估基于这些具体特征;b) 针对一个提示可能对应多个语音(多正样本)的问题,采用监督对比损失(SupCon)替代标准CLAP损失,提升训练稳定性;c) 使用强大的Llama-3作为文本编码器,以更好地区分提示中的细微语义差别。
  4. 主要实验结果:实验包括合理性(与人类MOS的相关性)和忠实性(对正/负提示的区分能力)。合理性:在TextrolSpeech数据集上,SPAM(WavLM版)与MOS的线性相关系数(LCC)为0.584,高于基线RA-CLAP(0.520)。忠实性:SPAM在Adherence Rate(AR)上达到0.862,表明它能有效区分正负提示;配对t检验显示,SPAM能接受负提示得分显著低于原提示的假设(H2),且对正提示的评分与原提示无显著差异(拒绝H1),优于RA-CLAP。详见表1。
实验指标数据集SPAM (WavLM)SPAM (CLAP)RA-CLAP
合理性LCCTextrolSpeech0.5840.5540.520
LCCLibriTTS-P0.5800.5160.429
忠实性ARTextrolSpeech0.8620.8410.852
ARLibriTTS-P0.7710.7660.750
原提示均值TextrolSpeech0.361±0.1530.039±0.0260.400±0.324
正提示均值 (p值)TextrolSpeech0.357±0.143 (-2.025)0.035±0.025 (-3.699*)0.380±0.312 (-3.479)
负提示均值 (p值)TextrolSpeech0.050±0.221 (-20.145)-0.005±0.030 (-17.538)-0.020±0.219 (-16.912*)

表1:论文中关于SPAM合理性和忠实性的核心实验结果。SPAM (WavLM)在各项关键指标上表现最佳。

  1. 实际意义:为Prompt-based TTS的自动化、标准化评估提供了一个可选的、可解释的度量工具有助于加速该领域模型的迭代与比较。
  2. 主要局限性:实验仅基于两个开源数据集,未覆盖更多样化的提示风格或非英语语言;基线对比未包含当前先进的“LLM-as-a-Judge”评估方法,未能证明其绝对优越性;未公开代码和模型,限制了研究的可复现性和社区采纳。

52. Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction

7.0/10 | 前50% | #语音合成 | #自回归模型 | #手势生成 #流匹配

👥 作者与机构

  • 第一作者:Téo Guichoux(ISIR, Sorbonne Université;STMS Lab – IRCAM, Sorbonne Université)
  • 通讯作者:未说明
  • 作者列表:Téo Guichoux(ISIR, Sorbonne Université;STMS Lab – IRCAM, Sorbonne Université), Théodor Lemerle(STMS Lab – IRCAM, Sorbonne Université), Shivam Mehta(KTH皇家理工学院), Jonas Beskow(KTH皇家理工学院), Gustav Eje Henter(KTH皇家理工学院), Laure Soulier(ISIR, Sorbonne Université), Catherine Pelachaud(ISIR, Sorbonne Université;CNRS), Nicolas Obin(STMS Lab – IRCAM, Sorbonne Université)

💡 毒舌点评

这篇论文的亮点在于其“交错token预测”的架构设计直觉上非常优雅,为多模态序列建模提供了一个统一且时序对齐的方案,并在同步性上取得了可观的实验结果。然而,其最大的短板在于“统一”的代价——它在语音生成质量上显著落后于最新的纯语音SOTA(如CosyVoice-2),在手势丰富度(如手指)上也进行了简化,这使其宣称的“统一”和“竞争”显得有些取舍过重,更像是一次有潜力的概念验证而非成熟的系统性方案。

📌 核心摘要

  1. 问题:当前生成语音和伴随手势的多模态系统大多采用级联(先语音后手势)的方式,导致两者同步性弱、韵律对齐不足,且不符合人类通信中多模态协同产生的心理语言学原理。
  2. 方法:提出Gelina,一个统一的自回归框架。该框架将文本映射到交错排列的语音和手势离散token序列中进行联合预测。具体地,它使用预训练的文本-语音数据集进行预训练,然后在配对的语音-手势-文本数据集上微调。手势token随后通过一个条件流匹配解码器还原为连续的运动序列。
  3. 创新:① 首次提出交错token自回归架构,用于联合建模语音和手势,在单一序列中自然地对齐时间步;② 提出一种利用大规模单模态数据(文本-语音)预训练的策略,以缓解配对多模态数据稀缺的问题;③ 支持灵活的输入/输出模式,包括文本生成语音+手势、基于语音提示生成手势,以及通过序列续写实现语音和手势风格的联合克隆,无需显式的说话人嵌入。
  4. 结果:在BEAT2数据集上,Gelina克隆模型在手势分布匹配度(FGD-B=0.0839)上优于CAMN和EMAGE基线;在语音自然度(NMOS)和说话人相似度上与同等规模的单模态TTS(Lina-Speech)相当或略优,但落后于强大的CosyVoice-2(WER: 9.2% vs 3.5%)。用户研究(96人)显示,其语音自然度得分显著高于Lina-Speech,手势自然度和同步性得分与专用手势生成模型RAG-Gesture相当,且显著高于EMAGE和CAMN。关键实验数据见下表:
    模型FGD-B ↓BC ∼Div. ∼WER ↓NMOS ↑SS (x100)
    Human0.00.6844.146.5 ±.543.72 ±.0469.1
    EMAGE0.16790.7663.92---
    RAG0.17810.7005.13---
    Gelina Clon.0.08390.7383.159.2 ±.843.21 ±.0461.3
    Lina-Speech---10.9 ±.92.98 ±.0560.1
    CosyVoice-2---3.5 ±.53.70 ±.0463.9
  5. 意义:验证了在统一框架内联合生成语音和手势的可行性,且能获得具有竞争力的同步性和自然度,为具身对话智能体提供了更自然的多模态生成思路。
  6. 局限:目前仅建模身体姿态,未包含手指和面部表情;语音质量受限于离散化tokenizer(WavTokenizer)的瓶颈;计算效率(RTF 1.47)低于专用单模态模型。

53. Retrieval-Based Speculative Decoding For Autoregressive Speech Synthesis

7.0/10 | 前50% | #语音合成 | #检索式推测解码 | #自回归模型 #推理加速

👥 作者与机构

  • 第一作者:Alan Chi-Man Lee(香港中文大学)
  • 通讯作者:未说明
  • 作者列表:Alan Chi-Man Lee(香港中文大学)、Wing-Sun Cheng(RISKSIS)、Calvin Chun-Kit Chan(香港中文大学)

💡 毒舌点评

亮点:论文提出的“检索+过滤接受”框架是一个思路清晰、工程实用性强的解决方案,成功将NLP领域的推测解码思路迁移到语音合成,并针对语音token的模糊性进行了有效适配,在强模型上验证了近30%的无损加速。短板:论文更像一个优秀的工程报告,理论创新有限;关键的实验对比缺失了直接竞争的相关工作(如[8][9]),说服力打了折扣;更重要的是,完全没有开源计划,对于一篇强调“即插即用”的方法论文来说,这几乎是致命缺陷。

📌 核心摘要

  1. 要解决什么问题:自回归语音合成(TTS)模型质量高但推理速度慢,因为其逐token生成的顺序性造成了严重的计算瓶颈。
  2. 方法核心是什么:提出一种免训练的“检索式推测解码”框架。它不使用一个小型的参数草稿模型,而是从一个预计算的语音token序列数据store中,根据当前上下文检索出候选续写序列(草稿)。然后,通过树注意力机制在目标模型中并行验证这些草稿,并采用一种结合概率匹配与重复感知的“过滤接受”逻辑来选择最终输出。
  3. 与已有方法相比新在哪里:与参数草稿模型(如Medusa)相比,它是免训练且即插即用的。与通用的检索推测解码(如REST)相比,它是首次应用于语音合成,并专门设计了处理语音token模糊性的接受策略。与此前的语音推测解码工作相比,它采用非参数检索而非参数草稿,并提出了更稳健的接受机制。
  4. 主要实验结果:在CosyVoice 2模型上,使用通用数据store可实现约19%的单token生成时间(TPT)缩减;使用针对特定说话人的数据store,可实现高达30%的TPT缩减,同时语音质量(SIM, MOS)、内容准确率(WER)与原始模型持平。关键消融实验数据如下表所示:
方法(c: 候选数,τ: 容忍度)SIM ↑WER ↓MOS ↑LM-RTF ↓TPT ↓
基线 (原始 CosyVoice 2)78.873.344.370.20346.30
本文 (c=16, τ=512, 通用)78.743.394.380.16925.13
本文 (c=16, τ=512, 说话人特定)79.153.374.410.14884.41
  1. 实际意义是什么:提供了一种无需修改模型、无需额外训练的加速方案,可直接应用于现有自回归TTS系统,对降低实时语音合成服务的延迟和成本有直接帮助。
  2. 主要局限性是什么:方法的加速效果高度依赖于数据store的覆盖度和匹配度(说话人特定场景效果更好);论文未与最新的语音推测解码工作进行直接对比;缺乏开源代码与模型,限制了实际复现与应用。


54. T-Mimi: A Transformer-Based Mimi Decoder for Real-Time On-Phone TTS

7.0/10 | 前50% | #语音合成 | #自回归模型 | #端到端 #量化

👥 作者与机构

  • 第一作者:Haibin Wu(Meta, USA)
  • 通讯作者:未说明
  • 作者列表:Haibin Wu(Meta, USA)、Bach Viet Do(Meta, USA)、Naveen Suda(Meta, USA)、Julian Chan(Meta, USA)、Madhavan C R(Meta, USA)、Gene-Ping Yang(Meta, USA)、Yi-Chiao Wu(Meta, USA)、Naoyuki Kanda(Meta, USA)、Yossef Adi(Meta, USA)、Xin Lei(Meta, USA)、Yue Liu(Meta, USA)、Florian Metze(Meta, USA)、Yuzong Liu(Meta, USA)

💡 毒舌点评

亮点:本文直击移动端实时语音合成的核心痛点——解码器延迟,通过将Mimi解码器中的反卷积层替换为Transformer层,实现了令人印象深刻的9.6倍延迟降低(42.1ms→4.4ms),成功让“真·实时”TTS在手机上成为可能,工程优化效果立竿见影。短板:其核心创新更多是架构的“平移”而非“突破”,原创性有限;并且实验仅在三星Galaxy S22上进行,未讨论其他硬件平台或极端低资源设备的适配性,通用性有待验证。

📌 核心摘要

  1. 要解决的问题:现有流式神经音频编解码器(如Mimi)的解码器因其反卷积层在移动CPU(如XNNPACK框架)上计算效率低下,导致在手机端部署实时TTS时存在严重的延迟瓶颈(42.1ms生成一个80ms音频帧)。
  2. 方法核心:提出T-Mimi,一种纯Transformer解码器架构,用多个Transformer层加线性层完全替换原Mimi解码器中的反卷积模块,并通过量化感知训练(QAT)进一步压缩模型。
  3. 新意所在:受TS3-Codec启发,首次将纯Transformer解码器应用于优化Mimi这一特定编解码器以解决移动端延迟问题;并通过大量消融实验,发现并验证了“解码器中靠近最终波形输出的层对量化高度敏感,必须保持全精度”这一重要规律。
  4. 主要实验结果:
    • 延迟与存储:在三星Galico S22上,T-Mimi生成80ms音频的延迟为4.4ms,相比基线Mimi解码器(42.1ms)降低9.6倍;存储空间从163.2MB降至68.7MB(量化后)。
    • 音频质量:全精度T-Mimi与微调后的基线Mimi在人类CMOS评估中无显著差异(+2.32%,95% CI: -0.70%至5.34%);采用最佳QAT策略(前10层8bit,最后2层Transformer+2层线性层32bit)后,PESQ从3.21(全精度)轻微下降至3.16,保持了高质量。
    • 消融实验:12层Transformer架构显著优于8层;线性层维度从2048增至3072性能提升有限。
  5. 实际意义:为在资源受限的移动设备上实现低延迟、高质量的实时流式语音合成提供了一个有效的编解码器端优化方案,且该方法可推广至其他基于反卷积的神经音频编解码器。
  6. 主要局限性:1. 架构创新有限,主要为已有模块的替换与组合;2. 实验仅在单一型号手机上进行延迟测试,未评估更广泛设备性能;3. 论文未提供开源代码、模型或复现指南,可复现性差。

55. Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features

7.0/10 | 前25% | #语音合成 | #生成模型 | #自监督学习 #扩散模型

👥 作者与机构

  • 第一作者:Hien Ohnaka(Nara Institute of Science and Technology)
  • 通讯作者:未说明
  • 作者列表:
    • Hien Ohnaka(Nara Institute of Science and Technology)
    • Yuma Shirahata(LY Corporation, Tokyo, Japan)
    • Masaya Kawamura(LY Corporation, Tokyo, Japan)

💡 毒舌点评

亮点:该工作敏锐地抓住了将基于梅尔谱设计的声码器(WaveFit)迁移到SSL特征时遇到的两个核心痛点(初始噪声和增益调整),并提出了优雅的解决方案。在说话人相似度指标(S-MOS)上取得了显著且一致的提升,尤其是使用Whisper特征时,这证明了方法的有效性。短板:方法在自然度(N-MOS)上的表现并不稳定,甚至在使用某些SSL特征时被基线反超,这暗示了“可训练先验”可能引入了新的不稳定性或对超参数过于敏感,论文对此的讨论和验证尚不充分。

📌 核心摘要

  1. 要解决什么问题:现有神经声码器(如WaveFit)在直接利用数据驱动的SSL特征生成波形时,由于缺乏信号处理先验知识,存在初始噪声采样不合理(远离目标)和增益调整依赖隐式学习两大局限。

  2. 方法核心是什么:提出WaveTrainerFit,其核心是引入一个基于变分自编码器(VAE)的“可训练先验”模块。该模块在训练时从目标波形和SSL特征中学习,在推理时仅需SSL特征即可生成接近目标波形的初始噪声。同时,通过约束先验分布学习语音能量,实现“参考感知增益调整”。

  3. 与已有方法相比新在哪里:新在将RestoreGrad中提出的可训练先验思想成功应用于语音波形生成任务,并创新性地将其应用于“时频域”以降低建模复杂度。同时,设计了一个新的引导损失(L_guide)和增益调整算子(G_ssl),使模型能更直接地利用先验中的能量信息。

  4. 主要实验结果如何:实验表明,在T=5次迭代时,WaveTrainerFit在多个SSL特征(WavLM, XLS-R, Whisper)上的参考相关指标(SpeechBERTScore, MCD, Speaker Similarity)均优于WaveFit和HiFi-GAN基线。特别是在说话人相似度(S-MOS)上提升显著(例如,使用Whisper特征时,S-MOS从3.56提升至4.19)。在使用信息较少的深层SSL特征时,该方法的鲁棒性更强。

    表1:在LibriTTS-R测试集(8层SSL特征,T=5)上的评估结果

    方法SSL特征SpeechBERTScore (↑, %)MCD (↓)Log-F0-RMSE (↓)Speaker Similarity (↑, %)N-MOS (↑)S-MOS (↑)
    WavLMHiFi-GAN V190.714.5100.197249.092.39±0.122.81±0.12
    WaveFit94.284.1090.195654.673.76±0.113.02±0.12
    WaveTrainerFit95.283.6720.181062.613.50±0.113.38±0.11
    XLS-RHiFi-GAN V191.094.4240.188751.962.54±0.122.99±0.12
    WaveFit94.114.1960.193452.783.79±0.113.04±0.12
    WaveTrainerFit94.394.0890.176255.543.21±0.123.13±0.12
    WhisperHiFi-GAN V188.904.4460.184354.982.41±0.122.96±0.12
    WaveFit93.303.7150.169559.643.23±0.123.56±0.11
    WaveTrainerFit94.603.2080.169075.023.87±0.104.19±0.09

    表1关键结论:WaveTrainerFit在所有SSL特征的Speaker Similarity (S-MOS) 上均取得最佳,证明了其提升说话人特征建模的有效性。但其自然度(N-MOS)在使用WavLM和XLS-R时略低于WaveFit。

  5. 实际意义是什么:为从任意数据驱动特征(尤其是SSL特征)生成高质量、高保真度的语音波形提供了一种更高效、更鲁棒的解决方案。这有助于推动语音合成、语音修复等下游任务,使其能更充分地受益于大规模SSL模型的表征能力。

  6. 主要局限性是什么:方法的有效性可能依赖于对引导损失权重(λGuide, λPM)的精细调节,论文承认其可能存在超参数敏感性。在部分实验设置下,生成的波形自然度(N-MOS)不及基线,说明模型在优化说话人相似度与自然度之间可能需要更好的平衡。


56. EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

7.0/10 | 前50% | #语音合成 | #激活引导 | #大语言模型 #流匹配

👥 作者与机构

  • 第一作者:Li Zhou(香港中文大学,深圳分校)
  • 通讯作者:Haizhou Li(香港中文大学,深圳分校)
  • 作者列表:Li Zhou†(香港中文大学,深圳分校)、Hao Jiang†(香港中文大学,深圳分校)、Junjie Li(香港理工大学)、Tianrui Wang(天津大学)、Haizhou Li*(香港中文大学,深圳分校)

💡 毒舌点评

亮点在于用仅10M参数(全微调的1/30)在情感表现力上超越了基线,且证明了通过调节引导系数α可实现情感强度的连续控制,这为参数高效的情感语��合成提供了一个优雅的方案。短板则是其“即插即用”的优势目前仅在一个中等规模、多情感的单语言数据集(ESD)上得到验证,对于更复杂的复合情感、跨语言场景或更大规模的基础模型的适用性有待考察。

📌 核心摘要

这篇论文针对情感语音合成中模型难以直接建模情感特有潜在动态的问题,提出了EmoShift框架。其核心是在基于LLM的TTS模型中引入一个名为EmoSteer的轻量层,该层为每种目标情感学习一个特定的转向向量,用于在输出嵌入空间中捕获相对于中性表达的潜在偏移量。与以往通过缩放固定情感嵌入或依赖外部指导的方法不同,EmoShift直接学习并注入情感特异性的激活偏移,实现了更精确和一致的控制。在ESD数据集上的实验表明,EmoShift以仅10M的可训练参数,在情感分类准确率(如整体从69.68%提升至74.26%)和主观情感评分(Emo-MOS从3.67提升至3.96)上均优于零样本和全参数微调基线。此外,分析显示,通过在推理时调整缩放因子α,可以平滑调节情感强度。该方法的意义在于提供了一种参数高效、可解释且即插即用的情感控制方案。主要局限性在于实验仅在单一英文数据集和有限的五种情感上进行验证。


57. Task Vector in TTS: Toward Emotionally Expressive Dialectal Speech Synthesis

7.0/10 | 前50% | #语音合成 | #流匹配 | #零样本 #低资源

👥 作者与机构

  • 第一作者:未说明(作者列表标注“Pengchao Feng1,2∗, Yao Xiao1∗”为共同第一作者)
  • 通讯作者:Xie Chen1,2†(上海交通大学X-LANCE实验室)
  • 作者列表:Pengchao Feng(1上海交通大学X-LANCE实验室, 2上海创新研究院),Yao Xiao(1上海交通大学X-LANCE实验室),Ziyang Ma(1上海交通大学X-LANCE实验室),Zhikang Niu(1上海交通大学X-LANCE实验室, 2上海创新研究院),Shuai Fan(1上海交通大学X-LANCE实验室),Yao Li(3上海航空电器有限公司),Sheng Wang(1上海交通大学X-LANCE实验室, 3上海航空电器有限公司),Xie Chen(1上海交通大学X-LANCE实验室, 2上海创新研究院)

💡 毒舌点评

亮点在于其“分而治之”的策略,通过独立建模再分层整合,巧妙地绕过了缺乏方言情感联合标注数据的难题,并在实验上证明了其优于简单串联或直接合并的基线。短板则是该方法的泛化能力存疑,在对另一个主流TTS框架(CosyVoice)上尝试时效果不佳,暗示其可能过度依赖于特定的F5-TTS架构特性,通用性打了折扣。

📌 核心摘要

  1. 要解决什么问题:在语音合成领域,如何在缺乏大量方言与情感联合标注数据的情况下,生成同时具有特定方言口音和丰富情感表达的语音。
  2. 方法核心是什么:提出了一种两阶段方法“分层表达向量(HE-Vector)”。第一阶段,基于F5-TTS模型,通过微调并提取“任务向量”来独立构建表示方言和情感的“表达向量(E-Vector)”。第二阶段,设计了一个“分层合并策略”,将方言E-Vector应用于模型的文本嵌入层和早期DiT块(负责音素发音),将情感E-Vector应用于后期DiT块(负责韵律语调),从而在推理时融合两种风格。
  3. 与已有方法相比新在哪里:相比于直接合并不同风格的任务向量(会导致风格干扰)或采用双阶段流水线(易造成误差累积),该方法的核心创新在于提出了基于模型层功能分工的“分层整合”机制,使得方言和情感特征能更独立、更少干扰地被建模和融合,且无需联合标注数据。
  4. 主要实验结果如何:在方言合成任务上,E-Vector增强模型(α=3.0)在8个方言上的平均MOS达到3.18,显著优于CosyVoice2(2.62)和全量微调模型(1.85)。在情感方言合成任务上,HE-Vector框架取得最佳平均MOS(2.83),优于完全合并E-Vector(2.76)、双阶段流水线(2.56)和CosyVoice2(1.87)。具体MOS对比见下表:
方法平均MOS (方言合成)平均MOS (情感方言合成)
CosyVoice22.621.87
FT (微调)1.85未提供
FT-last (过度微调)2.85未提供
E-Vector (α=3.0)3.18未提供
LoRA E-Vector2.35未提供
Fully E-Vector未提供2.76
Dual-stage未提供2.56
HE-Vector (Ours)未提供2.83
  1. 实际意义是什么:为低资源甚至零样本下的复杂表达性语音合成(如方言+情感)提供了一种数据高效的解决方案,有助于方言文化遗产保护和更自然的个性化语音交互。
  2. 主要局限性是什么:E-Vector的构建基于任务向量的线性缩放,而论文分析指出风格迁移的参数变化并非严格线性;该方法在其他TTS架构(如CosyVoice)上效果不佳,表明其通用性有限;实验中使用的方言和情感数据集部分为内部数据,未完全公开。


58. Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

7.0/10 | 前25% | #语音合成 | #数据增强 | #语音转换 #低资源

👥 作者与机构

  • 第一作者:Thanathai Lertpetchpun (Signal Analysis and Interpretation Lab, University of Southern California)
  • 通讯作者:未说明
  • 作者列表:Thanathai Lertpetchpun(USC SAIL实验室),Yoonjeong Lee(USC SAIL实验室),Thanapat Trachu(USC计算机科学系),Jihwan Lee(USC SAIL实验室),Tiantian Feng(USC SAIL实验室),Dani Byrd(USC语言学系),Shrikanth Narayanan(USC SAIL实验室、USC计算机科学系、USC语言学系)

💡 毒舌点评

亮点在于将语言学理论中“口音”的模糊概念,拆解为可量化、可操作的音韵规则,并提出了PSR这一新颖的交互度量工具。短板在于创新主要体现在评估方法论和实验分析上,对语音生成模型本身的改进有限,且评估结果严重依赖外部的音素识别模型,可能存在噪声。

📌 核心摘要

  1. 问题:当前TTS系统通过说话人嵌入控制口音,但该嵌入混合了音色、情感等无关信息,导致口音控制不透明且难以精细调整。
  2. 方法核心:以美式和英式英语为例,引入基于语言学的音韵规则(闪音、卷舌性、元音对应)作为显式探针。提出“音素移位率(PSR)”指标,用于量化说话人嵌入在多大程度上保留或覆盖这些规则驱动的音素转换。
  3. 创新点:1)提出PSR指标,直接衡量规则与嵌入的交互强度;2)系统性地分析了显式语言规则与数据驱动嵌入在口音合成中的相互作用。
  4. 实验结果:
    • 主要实验结果见下表1,显示结合规则能提升口音强度且不损害自然度,PSR值降低表明规则被更好保留。
    • 表2展示了不同条件下需二次应用规则的次数(N2),证明规则应用能减少“口音回退”。
    • 表3显示了不同说话人嵌入与规则结合的效果,PSR普遍下降15%左右。
    • 图2的核密度估计图显示,应用规则后,每个语句中被规则改变的音素数量分布向更小值偏移。
条件UTMOS (↑)声音概率 NA (↓)声音概率 B (↑)声音相似度 NA (↓)声音相似度 B (↑)PSR (↓)
美式嵌入,无规则4.4386.53.790.85-0.050.856
美式嵌入,全规则4.4258.817.30.740.210.827
英式嵌入,无规则3.7417.667.80.330.670.775
英式嵌入,全规则3.725.378.40.030.850.628

表1:不同规则配置下的实验结果(引自论文Table 1)

条件闪音 (N2, 千次)卷舌性 (N2, 千次)元音 (N2, 千次)全规则 (N2, 千次)
美式嵌入 (N1)12.883.5125.1221.4
美式嵌入 (N2)25.357.9106.3189.5
英式嵌入,无规则 (N2)12.357.4101.7171.5
英式嵌入,有规则 (N2)6.753.778.5139.0

表2:规则应用前后期望替换次数(N1)与实际观测次数(N2)对比(引自论文Table 2)

说话人声音概率 NA (↓)声音概率 B (↑)PSR (↓)PSR变化
Fable17.667.80.775
Fable-R (有规则)5.778.40.628-14.7%
Daniel4.789.80.706
Daniel-R (有规则)1.593.20.543-16.3%

表3:不同说话人嵌入与规则结合的效果(引自论文Table 3,仅展示部分数据)

图2 图2:不同条件下,每个语句中被规则改变的音素数量的分布。应用规则后(“British Speaker Embedding with Rules”曲线)分布明显向左偏移,表明更少的音素需要被再次改变,即规则保留度更高。

  1. 实际意义:为TTS系统提供了一种结合语言学知识与数据驱动模型的口音控制思路,PSR指标可为评估模型解耦能力提供新工具。
  2. 主要局限性:1)音韵规则是粗粒度的,无法捕捉口音的所有细微差别;2)评估高度依赖外部预训练模型(Vox-Profile, Wav2Vec2Phoneme),其本身可能存在偏见或误差;3)未涉及非英语口音或更复杂的口音混合场景。


59. PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion

7.0/10 | 前50% | #语音合成 | #流匹配 | #语音克隆 #多语言

👥 作者与机构

  • 第一作者:Vikentii Pankov(Rask AI, USA)
  • 通讯作者:未说明
  • 作者列表:Vikentii Pankov(Rask AI, USA)、Artem Gribul(Rask AI, USA)、Oktai Tatanov(Rask AI, USA)、Vladislav Proskurov(Rask AI, USA)、Yuliya Korotkova(École Polytechnique, France)、Darima Mylzenova(TBC Bank, Uzbekistan)、Dmitrii Vypirailenko(Rask AI, USA)

💡 毒舌点评

亮点:将“稳定性”和“自然性”这对矛盾通过一个优雅的推理时融合策略(α(t)调度)进行调和,是解决Flow-Matching TTS痛点的务实且有效的工程创新。短板:实验中声称使用的部分开源基线(如ChatterBox)训练数据规模远大于本文,这种“田忌赛马”式的对比,虽凸显了方法效率,但也可能掩盖了数据量对上限的决定性影响,结论的泛化性需打个问号。

📌 核心摘要

  1. 要解决什么问题:现有的基于流匹配(Flow-Matching)的TTS系统面临三个核心挑战:需要在稳定性(时长可控)和自然性(流畅度)之间做权衡;跨语言语音克隆能力较弱,无法有效利用长语音提示且容易跳词;从低帧率梅尔特征重建高保真48kHz波形的质量有待提升。
  2. 方法核心是什么:提出PFluxTTS,一个混合流匹配TTS系统。其核心是双解码器架构(一个基于时长的DG解码器和一个无对齐的AF解码器)以及推理时向量场融合(在ODE求解的前半段以DG为主稳定对齐,后半段切换为AF为主提升自然度)。此外,采用序列化的语音提示编码(在DG路径中)进行鲁棒的跨语言克隆,并改进PeriodWave声码器以支持48kHz超分辨率合成。
  3. 与已有方法相比新在哪里:a) 融合机制:不同于以往选择其一(时长引导或无对齐)的方法,本文首次提出在推理阶段通过动态混合两个独立模型的向量场,兼具两者优点。b) 克隆策略:在DG解码器内部使用序列化的语音提示token(类似FLUX的交叉注意力),而非固定的说话人向量,更好地捕获时变音色特征。c) 声码器增强:在PeriodWave中加入了提示感知条件(来自48kHz音频的全局embedding)和额外的上下采样块,以弥补低帧率梅尔特征的高频损失。
  4. 主要实验结果如何:
    • 主观评测(mTEDx-test, 跨语言英文合成):PFluxTTS自然度MOS(4.11)与ChatterBox(4.05)持平,显著优于FishSpeech(3.58);说话人相似度SMOS(3.51)显著优于商业系统ElevenLabs(3.19)。
    • 客观评测(VoxLingua-dev, 33种语言提示):PFluxTTS的WER(6.9%)和CER(4.5%)均显著优于所有对比基线,包括ChatterBox(WER 9.0%)。说话人相似度(SPK-SIM)0.68为最高。
    • 消融实验:证明了推理时融合(α=0.7)相比单独使用DG(α=1.0)或AF(α=0.0)模型能显著降低CER(从14.1%降至8.6%);序列化prompt编码相比固定嵌入在CMOS测试中获得1.19的大分差优势。
    • 声码器评测:PeriodWave-SR在VCTK和mTEDx数据集上的LSD均优于NVSR和BigVGAN+AudioSR基线。
    • 具体数据见下表:
系统WER ↓CER ↓SPK-SIM ↑备注
PFluxTTS (ours)6.94.50.68RTF: 0.56
ChatterBox9.05.90.61RTF: 0.54
FishSpeech45.435.00.49-
F5-TTS60.252.70.58RTF: 0.25
SparkTTS82.578.00.23RTF: 0.28
方法VCTK-test LSDmTEDx LSD
Proposed (PeriodWave-SR)0.661.01
NVSR0.701.63
BigVGAN+AudioSR0.991.39
  1. 实际意义是什么:该系统为构建高质量、鲁棒的跨语言语音克隆系统提供了有效的工程方案,尤其适用于AI配音、多语言内容本地化等场景。它证明了通过巧妙的推理阶段融合,可以在不增加模型参数和训练复杂度的前提下,显著提升现有Flow-Matching TTS框架的实用性能。
  2. 主要局限性是什么:训练数据主要来自约50k小时的过滤后多语言对话数据,但论文未公开数据集;实验主要聚焦于“英文为目标语言”的场景,对其他目标语言的表现未验证;系统复杂度高于单一模型,需要维护和融合两个解码器;论文未提及开源计划。

60. LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling

7.0/10 | 前25% | #语音合成 | #流匹配 | #低资源 #鲁棒性

👥 作者与机构

  • 第一作者:Doyeop Kwak(韩国科学技术院,KAIST)
  • 通讯作者:未说明
  • 作者列表:Doyeop Kwak(韩国科学技术院),Youngjoon Jang(韩国科学技术院),Joon Son Chung(韩国科学技术院)

💡 毒舌点评

亮点在于将“感知等价类”这一人类听觉特性形式化为流匹配中的线性投影目标,理论动机清晰且与低资源/少步场景的收益形成合理关联;但短板是实验“安全区”选择得过于小心,在单一的、高度控制的声码器任务上验证,未能展示该方法在更复杂的端到端TTS或语音转换等主流任务中的通用性和竞争力。

📌 核心摘要

  1. 问题:传统的条件流匹配(CFM)将数据集中每个样本视为目标分布的唯一代表,忽略了人类听觉对幅度缩放和小时间偏移等感知不变性的容忍,导致模型需强制收敛到一个任意实例,可能造成数据与容量的浪费。
  2. 核心方法:提出LP-CFM(线性投影条件流匹配),将建模目标从围绕单个数据点的各向同性高斯分布,改为沿感知等效变体(如不同响度或对齐的波形)构成的直线分布的细长高斯。同时引入向量校准采样(VCS)在推理时纠正预测向量,确保其与投影路径对齐。
  3. 新意:相比标准OT-CFM,LP-CFM显式地将感知不变性编码到生成模型的目标分布中,使模型学习流向等效集中最近点的路径,而非固定点,从而理论上缩短和稳定了传输路径。
  4. 主要实验结果:在神经声码器任务上,LP-CFM在所有评估指标(M-STFT, PESQ, MCD等)上均一致优于OT-CFM。优势在小模型(UNet-16上UTMOS提升0.14)、低数据(使用66%数据训练的LP-CFM在多数指标上优于使用100%数据的OT-CFM)和少步采样(3步时UTMOS优势最明显)场景下尤为显著。消融实验表明,LP-CFM应用于幅度谱贡献了主要性能提升,VCS起到了预期的安全保障作用。
  5. 实际意义:为生成式语音建模提供了更符合人类感知的新视角,可能在资源受限的边缘设备部署、快速合成等实际应用中带来收益。
  6. 局限性:验证场景相对单一且受控;方法的有效性依赖于能将不变性表达为线性方程,对于更复杂的变换或端到端模型中的隐变量是否普适未知。

61. SFM-TTS: Lightweight and Rapid Speech Synthesis with Flexible Shortcut Flow Matching

7.0/10 | 前25% | #语音合成 | #流匹配 | #轻量化模型 #实时处理

👥 作者与机构

  • 第一作者:Jin Shi(平安科技)
  • 通讯作者:Jin Shi(shijin fox@foxmail.com), Minchuan Chen(chenminchuan109@pingan.com.cn)(从邮箱和†符号推断,论文中未明确标注“通讯作者”字样)
  • 作者列表:Jin Shi(平安科技), Yan Shi(未说明), Minchuan Chen(平安科技), Shaojun Wang(未说明), Jing Xiao(未说明) 注:Yan Shi, Shaojun Wang, Jing Xiao三人的所属机构在论文正文中未明确说明,可能同属平安科技,但为严谨起见标注“未说明”。

💡 毒舌点评

这篇论文的亮点在于把“捷径模型”这个在图像生成领域比较新的概念灵活地改造后用到了语音合成上,还贴心地把笨重的Transformer换成了ZipFormer和FLASH,模型确实轻了不少,单步生成效果也还行。不过短板也很明显:只在VCTK一个英文数据集上刷榜,缺乏多语言、多数据集验证,说服力打了折扣;而且没开源代码和模型,对于想跟进复现的同行来说,光看论文里的公式和描述,可能得自己摸索一阵子。

📌 核心摘要

  1. 要解决什么问题:现有的基于扩散模型和流匹配的语音合成模型,在推理时减少生成步数(如少于5步或1步)会导致生成质量严重下降,难以在保证高质量的同时实现实时推理。
  2. 方法核心是什么:提出SFM-TTS,一个结合了“灵活捷径流匹配(Flexible Shortcut Flow Matching)”与轻量化Transformer(ZipFormer和FLASH模块)的非自回归TTS模型。其核心是通过非固定步长的捷径学习,让模型能通过单步或多步ODE求解完成高质量合成。
  3. 与已有方法相比新在哪里:
    • 方法层面:将原始捷径模型的固定步长方案扩展为灵活、非固定的双步长方案(d1, d2),增强了概率建模能力和生成灵活性。
    • 架构层面:在编码器和解码器中全面使用轻量的ZipFormer和FLASH模块,替代标准Transformer,大幅降低参数量和计算复杂度。
    • 训练策略:采用单阶段联合训练(结合FM损失和一致性损失),简化了如RapFlow-TTS等模型所需的两阶段训练。
  4. 主要实验结果如何:
    • 在VCTK数据集上,SFM-TTS(15.2M参数)在1步、2步生成时的MOS和UTMOS分数与需要10步的Grad-TTS(17.4M)相当或更优。
    • 与Matcha-TTS(20.9M)和RapFlow-TTS(20.9M)相比,SFM-TTS参数量减少了约27%,同时在2步生成时保持了有竞争力的自然度(MOS 3.69 vs Matcha 3.37, RapFlow 3.71)和可懂度(WER 3.16 vs Matcha 3.15, RapFlow 3.15)。
    • 消融实验证实了ZIPFormer、FLASH模块主要贡献于模型轻量化(参数减少约3-7M),而灵活捷径机制在仅增加极少量参数(1M)的情况下,显著提升了少步合成质量(MOS从3.24提升至3.69)。
    • (实验结果表格见下文详细分析部分)
  5. 实际意义是什么:为实现低延迟、高质量的端到端语音合成提供了一个有竞争力的解决方案。其轻量化特性使其在资源受限的边缘设备上部署更具可行性。
  6. 主要局限性是什么:
    • 实验仅在单一的英文多说话人数据集(VCTK)上进行验证,缺乏在其他语言、数据集和任务(如低资源语音、情感合成等)上的泛化能力证明。
    • 未提供代码、预训练模型及完整训练配置,不利于学术界的验证与进一步研究。
    • 论文未直接与近期一些基于非扩散的流匹配TTS(如VoiceBox)或更先进的单步生成模型进行对比,SOTA定位尚不明确。


62. MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis

7.0/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #端到端

👥 作者与机构

  • 第一作者:Keyu An(Alibaba group)
  • 通讯作者:Zhiyu Zhang(National Mobile Communications Research Laboratory, Southeast University)
  • 作者列表:Keyu An⋆(Alibaba group)、Zhiyu Zhang⋆†(Alibaba group, National Mobile Communications Research Laboratory, Southeast University)、Changfeng Gao⋆(Alibaba group)、Yabin Li⋆(Alibaba group)、Zhendong Peng⋆(Alibaba group)、Haoxu Wang⋆(Alibaba group)、Zhihao Du⋆(Alibaba group)、Han Zhao⋆(Alibaba group)、Zhifu Gao⋆(Alibaba group)、Xiangang Li⋆(Alibaba group)
  • 注:⋆表示Alibaba group,†表示National Mobile Communications Research Laboratory, Southeast University。第一作者和通讯作者基于论文标题下方作者列表顺序及贡献说明(“The first two authors contribute equally to this work.”)判断。

💡 毒舌点评

亮点在于用“表示对齐”模块巧妙地借用了预训练ASR编码器的语义知识来指导自回归模型生成更连贯的语义表示,确实显著加速了收敛并提升了内容一致性(WER大幅下降)。但其声称的“端到端”仍依赖预训练的说话人编码器和ASR编码器进行对齐,且声音克隆的说话人相似度(SS)在英文测试集上反而弱于其主要对比基线CosyVoice,暴露了该架构在全局声学上下文利用上的短板。

📌 核心摘要

本文提出了MELA-TTS,一种用于端到端文本到语音合成的联合Transformer-扩散模型框架。其旨在解决离散token方法存在的信息损失和多阶段流水线复杂性问题,以及现有端到端连续特征生成方法在内容一致性和训练收敛速度上的不足。方法的核心是自回归Transformer解码器生成连续向量作为条件,由扩散模型生成梅尔谱图块,并引入表示对齐模块,将Transformer解码器的输出与预训练ASR编码器的语义表示进行对齐,以增强语义一致性。与已往方法相比,新在:1)提出无需离散化的端到端连续特征生成框架;2)提出表示对齐模块作为核心创新,以预训练ASR语义特征作为对齐目标,而非梅尔谱图本身;3)统一支持流式和非流式合成。主要实验结果显示:在LibriTTS消融实验中,表示对齐将WER从6.3降至5.3,并加速训练超过3.3倍;在17万小时大规模数据上,MELA-TTS在测试集test-zh上的CER(0.9)优于使用相同数据的CosyVoice 3.0(1.3),在test-en上的WER(2.4)与DiTAR(1.7)可比,但说话人相似度(SS1/SS2)在英文测试集上低于CosyVoice系列。实际意义是为TTS领域提供了一种有竞争力的、基于连续特征的端到端新范式,特别在内容一致性和训练效率上有所提升。主要局限性是声音克隆的说话人相似度仍有优化空间,作者指出这可能源于扩散模块仅利用局部上下文,无法像多阶段系统那样访问全部历史token。


63. Combining Multi-Order Attention and Multi-Resolution Discriminator for High-Fidelity Neural Vocoder

6.5/10 | 前50% | #语音合成 | #生成模型 | #音频生成 #注意力机制

👥 作者与机构

  • 第一作者:未明确标注(根据署名顺序,Yan Shi 和 Minchuan Chen 标有星号,可能为共同第一作者)
  • 通讯作者:未明确标注
  • 作者列表:Yan Shi(平安科技,联系邮箱shiyanilj@163.com),Jin Shi(平安科技),Minchuan Chen(平安科技,联系邮箱chenminchuan109@pingan.com.cn),Ziyang Zhuang(平安科技),Peng Qi(上海交通大学重庆人工智能研究院),Shaojun Wang(平安科技),Jing Xiao(平安科技)

💡 毒舌点评

论文提出的MSCA模块将空间与通道注意力以级联方式组合,思路清晰,实验对比也做得非常全面,几乎把主流GAN声码器都拉来对比了一遍。但整篇论文读下来更像是一个“工程优化报告”,缺乏对“为什么这样组合就有效”的深入理论剖析,消融实验虽多,但对模块内部设计选择(如不同卷积核尺寸、扩张率)的探索不足,创新天花板可见。

📌 核心摘要

  1. 问题:基于GAN的神经声码器虽然在推理速度和感知质量间取得了平衡,但仍存在两大问题:合成语音存在相位不一致和伪影,以及常见的信号处理导致的模糊伪影。
  2. 方法核心:提出两个新模块:多阶空间通道注意力(MSCA) 和 多分辨率全带鉴别器(MRFBD)。MSCA嵌入生成器,通过多阶空间注意力(使用不同尺度的并行深度卷积)和通道注意力(使用自注意力)来增强声学特征表示。MRFBD作为鉴别器,将幅度谱、实部谱和虚部谱作为多分辨率输入,利用多尺度通道注意力和全局特征提取器来同时捕捉局部频谱细节和全局波形一致性。
  3. 新意:MSCA通过“多阶”(低、中、高阶特征)和“空间-通道”两阶段注意力来精炼特征。MRFBD的创新在于联合处理幅度、实部和虚部谱(显式利用相位信息),并结合多分辨率分析和轻量通道注意力来提升鉴别能力。
  4. 实验结果:在LJ Speech和VCTK数据集上,将MSCA集成到HiFi-GAN (M-H)、BigVGAN (M-B)和Vocos (M-I)中,与原基线模型相比,在UTMOS、MCD、PESQ等客观指标和MOS主观评分上均有提升。例如,M-B在LJ Speech上MOS达到4.42±0.06(BigVGAN为4.39±0.08),在VCTK上MOS为4.02±0.12(BigVGAN为3.84±0.10)。MRFBD的消融实验表明,同时输入幅度、实部、虚部谱的效果优于只用单一谱。M-I配置在保持低FLOPs(13.46G)的同时,获得了较高的语音质量(MOS 4.30±0.09)。
  5. 实际意义:为提升GAN声码器的合成质量,尤其是减少模糊伪影和改善高频细节,提供了有效的模块化改进方案。MSCA和MRFBD可作为即插即用组件,应用于其他GAN声码器。
  6. 主要局限性:论文对MSCA和MRFBD内部设计选择(如多阶特征的维度划分、注意力头数等)的探索和分析不够深入;作者与机构信息不全,削弱了研究的可信度和溯源性;未提供模型权重和完整复现代码,降低了开源价值。