语音合成 | 语音/音频论文速递

Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions

📄 Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions #语音合成 #流匹配 #预训练 #零样本 #语音情感识别 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #预训练 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Kun Zhou（阿里巴巴集团通义实验室，新加坡）通讯作者：未说明作者列表：Kun Zhou（阿里巴巴集团通义实验室，新加坡）、You Zhang（美国罗切斯特大学）、Dianwen Ng（阿里巴巴集团通义实验室，新加坡）、Shengkui Zhao（阿里巴巴集团通义实验室，新加坡）、Hao Wang（阿里巴巴集团通义实验室，新加坡）、Bin Ma（阿里巴巴集团通义实验室，新加坡） 💡 毒舌点评亮点在于将经典心理学理论（PAD模型）与前沿的语言模型TTS框架深度结合，实现了从离散情感标签到连续情感空间控制的优雅跳转，为情感语音合成提供了更富表现力的控制范式。短板是实验部分更像一场“理论验证秀”（如图2展示合成语音的声学特征与理论吻合），但在与当前最强系统（如使用大规模情感数据或更强解码方法的模型）的“硬碰硬”对比和系统性消融实验上显得保守和不足，使得其宣称的优势说服力打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开的ESD和LibriTTS数据集。情感维度预测器的训练数据（ESD子集）是公开的，TTS训练数据（LibriTTS）也是公开的。 Demo：提供了在线演示页面：https://demos46.github.io/emotion_pad/ 复现材料：提供了模型架构描述、关键超参数（如ED预测器的训练设置、TTS模型各组件维度）、数据集规模等信息。但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：引用了CosyVoice、HiFi-GAN、3D-Speaker（用于说话人嵌入）、WavLM、UMAP等开源模型和工具。 📌 核心摘要要解决什么问题：当前的情感语音合成（TTS）系统受限于数据集中的少量离散情感标签（如喜怒哀乐），无法覆盖人类丰富（理论上有约34000种）且微妙的情感光谱，导致生成语音的情感表达有限、不自然。方法核心是什么：本文提出一个基于语言模型的TTS框架，核心是引入情感维度（ED）预测器和连续情感维度控制。ED预测器利用心理学期理论（PAD模型：愉悦度-唤醒度-支配度），将语音数据集中的离散情感标签映射为连续的3维向量。在TTS训练和推理时，将ED向量作为额外条件输入语言模型，从而引导语音合成。与已有方法相比新在哪里：相比传统基于离散标签的监督学习或基于参考语音的风格迁移方法，本文方法无需在TTS训练阶段使用显式情感标签，仅通过连续的ED向量即可在推理时灵活控制生成语音的情感风格，且能探索训练数据中未出现过的情感组合。主要实验结果如何：在零样本情感克隆任务上，本文方法的语音自然度MOS（4.54）优于基线CosyVoice（4.36）。在情感可懂度（E-MOS）主观评估中，本方法在所有测试情感上得分均高于CosyVoice基线。XAB测试表明，系统能较好地区分PAD维度相近的情感对（如愤怒vs焦虑，正确匹配率约84%）。客观上，合成语音的音高和频谱通量统计特征与理论预期相符（如图2所示）。实际意义是什么：该框架使得TTS系统能够更精细、灵活地合成多样化的情感语音，无需依赖大规模标注数据，有望提升对话系统、有声读物、虚拟助手等应用的情感交互自然度和用户体验。主要局限性是什么：1) 情感维度预测器依赖于已有的离散情感标签数据集进行训练，其质量可能受限于原始标签的噪声和偏差；2) 实验评估中，与最先进的情感TTS系统（如CosyVoice的情感扩展版本EmoCtrl-TTS）的直接对比缺失，且缺乏关键模块的消融研究；3) 当前工作主要在英语单语种上进行验证，多语言适应性未探讨。 🏗️ 模型架构本论文的框架包含两个主要阶段：情感维度（ED）预测器训练和TTS模型训练/推理。 ...

Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec

📄 Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec #语音合成 #信号处理 #低资源 #流式处理 ✅ 7.5/10 | 前25% | #语音合成 | #信号处理 | #低资源 #流式处理学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yanzhou Ren（早稻田大学）通讯作者：未说明作者列表：Yanzhou Ren（早稻田大学）、Noboru Harada（NTT, Inc., Japan）、Daiki Takeuchi（NTT, Inc., Japan）、Siyu Chen（早稻田大学）、Wei Liu（早稻田大学）、Xiao Zhang（早稻田大学）、Liyuan Zhang（早稻田大学）、Takehiro Moriya（NTT, Inc., Japan）、Shoji Makino（早稻田大学） 💡 毒舌点评这篇论文就像给一辆已经不错的汽车（Mimi）换了套更智能的轮胎（EG-GRVQ），开起来确实更稳更高效，但发动机和底盘没变。优点是思路自然、实验扎实，将信息论概念（熵/方差）与工程实践（分组量化）结合得很漂亮；缺点是技术突破感不强，更像一次精细的调优，而且没把“改装图纸”（代码）公开出来。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开的LibriTTS和VCTK数据集，论文中说明了数据使用方式。 Demo：未提及。复现材料：论文中详细描述了模型架构、损失函数、训练策略（数据、硬件、批次大小）和关键超参数，提供了较好的文本复现指南。论文中引用的开源项目：明确基于Mimi[13]架构进行改进，并参考了SpeechTokenizer[12]的语义蒸馏方法、HiFi-Codec[21]的GRVQ思想，以及WavLM[10]用于语义蒸馏。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：在超低比特率条件下，神经语音编码器如何同时保证高保真的波形重建质量和足够高的语音可懂度（语义信息）。方法核心是什么：提出熵引导的分组残差矢量量化（EG-GRVQ）。它在保留Mimi模型语义分支的同时，在声学分支中，利用编码器各通道输出的方差（作为信息量的代理）来指导如何将通道分成两个信息量均衡的组，而非传统的均匀分割。与已有方法相比新在哪里：相较于Mimi原始的RVQ和HiFi-Codec的均匀分组GRVQ，EG-GRVQ的创新点在于“引导分组”的依据。它基于高斯分布假设，认为通道方差与其携带的微分熵正相关，因此通过方差排序和累加来确保分组间的信息负载均衡，旨在提升码本利用效率和减少信息冗余。主要实验结果如何：在0.6875 kbps的超低比特率下，与多个基线相比，EG-GRVQ在客观指标和主观评价上均取得提升。关键数据如下：客观评估：方法 PESQ↑ STOI↑ ViSQOL↑ Mimi (official) 1.872 0.876 2.010 Mimi (retrain) 1.779 0.886 2.546 Mimi (GRVQ) 1.852 0.889 2.464 Proposal (EG-GRVQ) 1.881 0.890 2.496 (表1数据) 码本利用效率：EG-GRVQ在各层码本上保持了更高且更均衡的利用率，而传统RVQ在深层码本利用率急剧下降。主观评估：MUSHRA测试中，EG-GRVQ比官方Mimi得分高21分，比Mimi (GRVQ)高11分，且提升具有统计显著性（图4，图5）。实际意义是什么：该方法为低带宽实时语音通信（如VoIP、卫星通信）提供了一种提升音质的可行方案，能在固定比特率预算内更高效地利用量化资源，平衡语义与声学保真度。主要局限性是什么：1) 分组策略在训练前固定为超参数，未探讨逐帧自适应的可能性（论文中提及但为简化未实施）；2) 核心改进局限于声学分支的分组策略，未涉及编解码器整体架构或语义分支的优化；3) 未开源代码和模型，限制了直接复现和快速迭代。 🏗️ 模型架构模型整体架构（如图1所示）沿用了Mimi的编解码器框架，采用因果、低延迟设计，适用于实时通信。 ...

Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech

📄 Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech #语音合成 #说话人识别 #流匹配 #音频安全 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #说话人识别 #音频安全学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Myungjin Lee (梨花女子大学 AI与软件学院) 通讯作者：Jiyoung Lee (梨花女子大学 AI与软件学院) 作者列表：Myungjin Lee (梨花女子大学 AI与软件学院), Eunji Shin (梨花女子大学 AI与软件学院), Jiyoung Lee† (梨花女子大学 AI与软件学院) （* 标记为共同第一作者，† 标记为通讯作者） 💡 毒舌点评这篇论文巧妙地将大语言模型中的“激活转向”思想移植到零样本TTS的安全场景，提供了一种“即插即忘”的优雅解决方案，免去了昂贵的重新训练，这是其最大的工程和实用价值。然而，方法的理论基石略显单薄——其核心假设“身份信息主要编码在FFN层”依赖于一篇同期引用的、尚未完全验证的分析，使得整个转向机制的普适性打上问号；此外，实验仅在F5-TTS上完成，对于其他TTS架构是否同样有效，仍是未知数。 🔗 开源详情代码：论文提供了代码和演示页面的链接：http://mmai.ewha.ac.kr/trus。是。模型权重：论文中未提及是否公开F5-TTS的预训练权重或TruS干预后的任何权重（因为TruS无需权重）。数据集：论文使用了公开数据集（Emilia的英文子集、LibriSpeech、CREMA-D），但未提及TruS评估所用的特定子集（如opt-out说话人列表）的获取方式。 Demo：论文提到“The demo and code are available on http://mmai.ewha.ac.kr/trus”，因此提供在线演示。是。复现材料：论文给出了部分超参数（如α=1.2, N=30），并进行了相关消融实验，但缺少详细的推理脚本、环境依赖（如F5-TTS的具体版本）、以及构建ID原型的具体操作脚本等复现材料。论文中引用的开源项目：主要依赖F5-TTS（[5]）作为基座模型。评估中使用了ECAPA-TDNN（[31]）计算SIM，Whisper large-V3（[32]）计算WER，emotion2vec（[33]）计算SIM-Emo。 📌 核心摘要要解决的问题：零样本文本到语音（TTS）模型能高度逼真地模仿任意说话人的声音，这带来了严重的隐私和安全风险，可能导致未授权的语音生成。现有应对方案如水印（事后追溯）、语音匿名化（身份替换）和基于训练的遗忘（成本高、无法处理未见说话人）均存在不足。本文旨在提出一种高效、可扩展的“拒绝生成”机制。方法核心：提出TruS，一个免训练的、在推理时进行干预的说话人遗忘框架。其核心思想是：在TTS模型内部，通过一组已知“保留”说话人的语料构建一个代表“正常”说话人身份的ID原型嵌入。当遇到请求“退出”（opt-out）的未知说话人时，计算其激活与ID原型的差异，得到一个身份特定的转向向量。在生成过程中，动态选择那些身份信号显著的层和时间步，将当前激活在转向向量方向上的投影分量减去，从而抑制该目标身份信息的输出，同时保留语言内容和韵律情感。与已有方法相比新在哪里：范式转变：从数据删除（重训练）转向推理时控制。免训练与即插即用：无需任何重训练或微调，可直接应用于现有TTS模型，极大降低了部署成本和时间。处理未见说话人：首次在零样本TTS遗忘任务中，能够有效处理训练集中未出现过的、来自外部的opt-out说话人请求，更具现实意义。动态与自适应：通过动态阈值（基于层间相似度统计）自动选择干预点，比固定规则的转向（如EmoSteer）更精细，避免了对生成质量的过度破坏。主要实验结果：在已见opt-out说话人上，TruS（SIM-SO: 0.477）与需要重训练的TGU（SIM-SO: 0.510）相比，在身份抑制上更有效，同时WER（语言保真度）更好（3.25 vs 4.03），且训练时间成本为零。但SGU（SIM-SO: 0.106）抑制更强，但破坏了保留说话人的语音质量（SIM-R大幅下降）。关键突破在于对未见opt-out说话人（LibriSpeech）的泛化能力：TruS将SIM-UO从基线的0.668显著降低至0.488，Spk-ZRF-UO从0.906提升至0.913，证明其可推广至未知身份。在情感数据集（CREMA-D）上，TruS在抑制未见说话人身份（SIM-UO: 0.131 vs 0.217）的同时，情感相似度（SIM-Emo）几乎无损（0.723 vs 0.732），表明能较好地保留非身份属性。消融研究表明，采用“μ+σ”阈值进行层选择能达到身份抑制与语音质量的最佳平衡；ID原型的保留说话人池大小N=30时综合性能最优。实际意义：为零样本TTS技术提供了一种用户驱动的、细粒度的隐私保护工具，允许个人明确拒绝其声音被合成，且该工具易于集成到现有系统中，为生成式语音AI的负责任部署提供了一种可扩展的技术方案。主要局限性：方法严重依赖“说话人身份信息主要编码在FFN层”这一先验假设，该假设的普适性有待验证。实验验证仅基于F5-TTS（一种基于DiT的流匹配模型）一种架构，其有效性是否能迁移到其他主流的零样本TTS模型（如自回归模型）尚不明确。对“未见说话人”的处理需要一个“opt-out说话人”的单句参考语音，这要求opt-out用户提供一段自己的录音作为凭证，可能存在额外操作门槛。 🏗️ 模型架构 TruS并非一个独立训练的模型，而是一个插入到预训练TTS模型（如F5-TTS）推理过程中的干预模块。其整体工作流程如图2所示。图2展示了TruS与TTS模型协同工作的流程： ...

FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation

📄 FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation #联邦学习 #语音克隆 #语音合成 #低秩适配 #个性化学习 🔥 8.0/10 | 前25% | #语音克隆 | #联邦学习 | #语音合成 #低秩适配学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Qi Wang（鹏城实验室；中国科学院计算技术研究所；中国科学院大学）通讯作者：未说明作者列表：Qi Wang（鹏城实验室，中国科学院计算技术研究所，中国科学院大学）、Shituo Ma（中国科学院信息工程研究所，中国科学院大学）、Guoxin Yu（鹏城实验室）、Hanyang Peng（鹏城实验室）、Yue Yu（鹏城实验室） 💡 毒舌点评亮点：论文框架设计巧妙，通过解耦“身份（ID-LoRA）”和“风格（Style-LoRA）”，并借鉴协同过滤思想进行个性化聚合，优雅地解决了联邦学习中“隐私保护-通信效率-个性化”三者间的矛盾，是一个完整且实用的系统方案。短板：实验部分缺少对最新、最强的端到端语音大模型（如GPT-SoVITS的最新版本或CosyVoice 2的直接微调基线）的深入对比，使得其“显著优于零样本方法”的结论在当前技术背景下略显单薄，也未能充分展示其在更复杂（如跨语言）场景下的泛化能力。 🔗 开源详情代码：提供了一个Hugging Face Spaces Demo链接 (https://huggingface.co/spaces/sDuoluoluos/FedPISA-Demo)，但论文未提供完整的训练或评估代码仓库链接。模型权重：论文未提及是否公开FED-PISA或其组件（如训练好的ID-LoRA、Style-LoRA）的权重。数据集：使用了四个公开数据集（ESD, EmoV-DB, RAVDESS, CREMA-D），并说明了数据获取与预处理方式，但未提供统一的预处理后数据包。 Demo：提供了在线演示链接。复现材料：论文非常详细地给出了模型配置（骨干版本、LoRA秩/缩放）、训练超参数（学习率、batch size、轮数、步数分配）、优化器、评估指标（包括使用的模型，如Whisper, emotion2vec, ECAPA-TDNN）和硬件环境，复现细节充分。引用的开源项目： GPT-SOVITS-V4（作为骨干）、emotion2vec（用于风格标签映射和评估）、Whisper-large-v3 Turbo（用于文本标注和WER/CER计算）、SpeechBrain（提供ECAPA-TDNN用于说话人相似度评估）。论文中未提及代码仓库链接和模型权重下载地址，但提供了Demo链接。 📌 核心摘要问题：现有联邦语音克隆（TTS）方法面临两大挑战：高昂的通信开销和对说话人风格异质性的抑制，导致个性化不足。方法核心：提出FED-PISA框架。其核心是解耦的LoRA机制：为每个客户端维护一个私有的、冻结的ID-LoRA（捕捉音色），以及一个可全局通信的、轻量的Style-LoRA（捕捉风格）。服务器端采用受协同过滤启发的个性化聚合策略，为每个客户端从风格相似的对等方学习，生成定制化的风格模型。创新点：与传统联邦TTS相比，新在：1）首次在联邦语音克隆中实现身份与风格的解耦设计，通过LoRA分离；2）引入个性化聚合算法（基于风格相似度的注意力加权），主动利用而非抑制风格异质性；3）在强大的预训练骨干（GPT-SOVITS-V4）上应用PEFT，显著提升框架的性能上限。主要实验结果：在四个公开数据集（ESD, EmoV-DB, RAVDESS, CREMA-D）上进行50轮联邦训练。关键结果见下表。FED-PISA在风格表达性（SE: 0.704）、说话人相似度（SS: 0.645）、自然度（nMOS: 4.08）和正确率（WER: 2.70%）上均优于所有基线，同时通信开销（45.8 GiB）远低于其他联邦方法。方法骨干 SE ↑ WER (%) ↓ SS ↑ nMOS ↑ 通信开销 (GiB) ↓ 零样本 (COSYVOICE2) - 0.659 7.20 0.619 3.84 - 本地微调 (LoRA) GPT-SOVITS-V4 0.626 3.35 0.529 3.36 - FedSpeech FASTSPEECH2 0.416 6.82 0.556 3.77 145.28 Fed Dy. Trans. TRANSFORMER-TTS 0.463 8.75 0.602 3.72 456.35 FED-PISA (Ours) GPT-SOVITS-V4 0.704 2.70 0.645 4.08 45.8 实际意义：为在隐私保护前提下，实现高效、高保真的个性化语音合成提供了一个可行的联邦学习解决方案，有助于推动语音合成技术在边缘设备和隐私敏感场景（如个人设备）中的应用。主要局限性： 1）框架假设客户端拥有可用于初始化ID-LoRA的中性语料，在纯语音交互或冷启动场景下可能受限；2）个性化聚合的计算开销随客户端数量增长，论文未讨论其可扩展性；3）未在真实的、资源异构的边缘设备集群上评估部署性能。 🏗️ 模型架构 FED-PISA是一个基于联邦学习的语音克隆框架，其整体架构分为客户端和服务器两部分，核心思想是身份-风格解耦。 ...

Frame-Stacked Local Transformers for Efficient Multi-Codebook Speech Generation

📄 Frame-Stacked Local Transformers for Efficient Multi-Codebook Speech Generation #语音合成 #语音大模型 #自回归模型 #局部Transformer ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #语音大模型 #局部Transformer 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Roy Fejgin（NVIDIA）通讯作者：Roy Fejgin (rfejgin@nvidia.com), Paarth Neekhara (pneekhara@nvidia.com) 作者列表：Roy Fejgin（NVIDIA）、Paarth Neekhara（NVIDIA）、Xuesong Yang（NVIDIA）、Edresson Casanova（NVIDIA）、Ryan Langman（NVIDIA）、Jaehyeon Kim（NVIDIA）、Subhankar Ghosh（NVIDIA）、Shehzeen Hussain（NVIDIA）、Jason Li（NVIDIA） 💡 毒舌点评亮点在于其工程化的系统思维和扎实的消融实验，将“局部Transformer”这个相对概念性的模块，通过与“帧堆叠”的结合，转化为了可量化的速度提升（高达5.5x）和可操作的设计指南，非常实用。短板是MaskGIT变体在高堆叠因子（4x）下的表现（如MOS和SSIM的下降）显得有些“拖后腿”，暗示了迭代式非自回归方法在建模更复杂依赖时仍面临训练和调参的挑战，且论文未能与当前最前沿的TTS系统（如VALL-E 2等）进行直接的质量对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了Koel-TTS的数据（18k小时），但论文未说明具体名称和获取方式，也未提及是否开源。 Demo：提供了在线演示页面：https://frame-stacking-lt.github.io 复现材料：提供了模型架构描述、关键超参数（层数、维度、帧率、码本数）、采样设置（CFG, top-k, 温度, MaskGIT步数）和评估细节，但未提供完整的训练配置（如学习率调度、batch size）、检查点或附录。论文中引用的开源项目：引用了NanoCodec [11]（未提及是否开源）、Parakeet-TDT-1.1b [17]（开源ASR模型）、TitaNet-Large [18]（开源说话人嵌入模型）、UTMOSv2 [20]（未提及开源）。 📌 核心摘要本文旨在解决基于大语言模型的语音合成系统中，多码本声学码预测所面临的依赖性建模与解码效率的矛盾。方法核心是引入一个轻量的“局部Transformer”来替代传统的并行预测头，该LT以迭代方式（自回归或MaskGIT）对单帧内的多个码本进行依赖性建模；同时，利用LT分担计算负载，让主Transformer预测多帧（帧堆叠），从而提升整体吞吐率。与已有方法相比，新在系统性地评估了两种LT架构（AR与MaskGIT）与不同帧堆叠因子的组合，并在控制模型总参数量的前提下进行了公平比较。主要实验结果显示：1）所有LT模型在Fréchet Distance（FD）指标上均优于并行预测基线；2）使用AR LT且堆叠因子为2时，在SSIM（0.757 vs 0.695）和MOS（3.70 vs 3.46）上与基线持平或更优，同时速度快2.1倍；3）堆叠因子为4时，AR LT仍能保持较好的MOS（3.71），而MaskGIT的MOS显著下降（3.41）。实际意义在于为工业部署提供了明确的指南：质量优先选AR LT（无堆叠），速度与质量平衡选2x堆叠AR LT，极致速度可选4x堆叠LT。主要局限性是MaskGIT方法在高堆叠因子下性能不稳定，且研究未涉及与最新SOTA TTS模型的横向对比。 ...

From Hallucination to Articulation: Language Model-Driven Losses for Ultra Low-Bitrate Neural Speech Coding

📄 From Hallucination to Articulation: Language Model-Driven Losses for Ultra Low-Bitrate Neural Speech Coding #语音合成 #知识蒸馏 #自监督学习 #低资源 ✅ 7.5/10 | 前25% | #语音合成 | #知识蒸馏 | #自监督学习 #低资源学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jayeon Yi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院）通讯作者：Minje Kim（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院）作者列表：Jayeon Yi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院）、Minje Kim（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院） 💡 毒舌点评亮点在于巧妙地利用了成熟的ASR模型（Whisper）和语音-文本对齐模型（TTR）内部蕴含的语言学知识，将其转化为端到端的训练损失，无需修改编解码器架构，这是一种高效且优雅的知识蒸馏范式。短板是评估体系几乎完全建立在单说话人数据集LJSpeech上，这大大削弱了其结论对于多说话人、多语言或复杂声学环境等更广泛场景的说服力。 🔗 开源详情代码：论文明确提供代码链接（https://minjekim.com/research-projects/lm-loss#icassp2026）。模型权重：论文明确提到提供“检查点”。数据集：使用LJSpeech和LibriSpeech-960h。论文中未说明这些数据集的获取方式，但它们是公开数据集。 Demo：论文明确提供在线演示样本链接。复现材料：论文提供了代码、检查点和演示，训练细节（三阶段、超参数）在论文中有描述，但未提供详细的配置文件或训练脚本。论文中引用的开源项目：Whisper, BERT, WavLM, HuBERT, HiFi-GAN, webMUSHRA, Montreal Forced Aligner, YAAPT, wav2vec 2.0。 📌 核心摘要问题：在超低比特率（<0.4 kbps）的基于深度神经网络（DNN）的语音编解码器中，生成式解码器常因过度压缩的语义信息不足而产生“音素幻觉”，即合成出声学上干净但与原始语音语义不符的音素。方法：提出两种语言模型驱动的损失函数（LM Loss）。第一种是ASR损失，利用预训练的Whisper模型，在无需地面真值文本的情况下，通过比较干净语音和解码语音触发的ASR内部语言模型的预测差异来指导编解码器训练。第二种是TTR损失，在需要时序文本时，利用冻结的WavLM和BERT模型，通过投影模块对齐解码语音的声学嵌入和文本的语义嵌入。创新：与传统仅依赖自监督表示（如HuBERT）进行语义蒸馏的方法不同，本文方法直接利用专门为语音-文本关联任务预训练的模型知识，并以端到端损失形式作用于整个编解码器（包括解码器），且无需对编解码器架构进行任何修改或增加推理开销。结果：在基于HuBERT和HiFi-GAN的参考编解码器上实验，187.5 bps下，ASR损失变体在语义7点MOS评分上达到6.55（基线SD为5.53），在Whisper WER上降至1.45%（基线SD为3.33%）。TTR损失变体也显著优于基线。所有LM损失变体在语义评估上显著优于语义蒸馏基线，在整体相似度上与之相当。具体数据见下表：语义/声学速率 (bps) LM 损失 WER(%)↓ (Whisper) WER(%)↓ (wav2vec2.0) PESQ↑ WARPQ↑ 187.5 ASR 1.45 4.56 1.35 0.289 TTR 2.34 7.13 1.39 0.293 SD (基线) 3.33 11.2 1.42 0.295 S2 (阶段2) 3.04 8.82 1.35 0.283 212.5 ASR 1.23 3.63 1.37 .289 TTR 1.53 5.25 1.44 .293 SD (基线) 2.11 7.04 1.46 .295 S2 (阶段2) 2.09 6.34 1.36 .289 未编码 ∞ - 0.95 1.74 4.64 1.00 ...

Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction

📄 Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction #语音合成 #手势生成 #自回归模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前50% | #语音合成 | #自回归模型 | #手势生成 #流匹配学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Téo Guichoux（ISIR, Sorbonne Université；STMS Lab – IRCAM, Sorbonne Université）通讯作者：未说明作者列表：Téo Guichoux（ISIR, Sorbonne Université；STMS Lab – IRCAM, Sorbonne Université）， Théodor Lemerle（STMS Lab – IRCAM, Sorbonne Université）， Shivam Mehta（KTH皇家理工学院）， Jonas Beskow（KTH皇家理工学院）， Gustav Eje Henter（KTH皇家理工学院）， Laure Soulier（ISIR, Sorbonne Université）， Catherine Pelachaud（ISIR, Sorbonne Université；CNRS）， Nicolas Obin（STMS Lab – IRCAM, Sorbonne Université） 💡 毒舌点评这篇论文的亮点在于其“交错token预测”的架构设计直觉上非常优雅，为多模态序列建模提供了一个统一且时序对齐的方案，并在同步性上取得了可观的实验结果。然而，其最大的短板在于“统一”的代价——它在语音生成质量上显著落后于最新的纯语音SOTA（如CosyVoice-2），在手势丰富度（如手指）上也进行了简化，这使其宣称的“统一”和“竞争”显得有些取舍过重，更像是一次有潜力的概念验证而非成熟的系统性方案。 ...

GLA-GRAD++: An Improved Griffin-Lim Guided Diffusion Model for Speech Synthesis

📄 GLA-GRAD++: An Improved Griffin-Lim Guided Diffusion Model for Speech Synthesis #语音合成 #扩散模型 #领域适应 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #领域适应学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Teysir Baoueb（LTCI, T´el´ecom Paris, Institut polytechnique de Paris, France）通讯作者：未说明作者列表：Teysir Baoueb（LTCI, T´el´ecom Paris, Institut polytechnique de Paris, France）、Xiaoyu Bie（同上）、Mathieu Fontaine（同上）、Ga¨el Richard（同上） 💡 毒舌点评这篇论文的亮点在于将经典的信号处理算法（Griffin-Lim）与前沿的生成模型（扩散模型）结合得干净利落，通过一个“简单但关键”的修改（在预测y0项上进行一次性校正）同时解决了速度和鲁棒性两个痛点，在out-of-domain测试集上的提升相当亮眼。短板在于实验对比的基线不够丰富（未与同期的一些快速扩散声码器如FreGrad、SWave等直接对比），且未开源代码和模型权重，对于宣称“零样本”的方法，其实用价值评估需要等待社区验证。 🔗 开源详情代码：论文未提供代码仓库链接。仅提供了演示页面：https://gla-grad-plus-plus.github.io/。模型权重：未提及公开模型权重。数据集：使用的是公开标准数据集（LJSpeech, VCTK），论文未提及额外私有数据集。 Demo：提供了在线演示页面：https://gla-grad-plus-plus.github.io/。复现材料：给出了核心算法描述和关键实验参数（如GLA迭代次数、梅尔谱参数、扩散步数），但训练超参数（学习率、优化器等）、阶段切换的具体实现代码细节未提供。论文中引用的开源项目：提到了WaveGrad [5]、HiFi-GAN [27]等作为基线或参考，但未明确列出本工作所依赖的开源代码库。开源计划：论文中未明确提及未来开源计划。 📌 核心摘要本文旨在解决基于扩散模型的声码器在条件梅尔频谱图与训练分布不匹配时性能下降且计算成本高的问题。其核心方法GLA-Grad++通过在扩散反向过程的早期，将神经网络预测的“干净语音”（预测y0）替换为从条件梅尔频谱图中通过一次Griffin-Lim算法（GLA）恢复的音频信号（˜x），来引导生成过程。与先前工作GLA-Grad（在多个扩散步骤中重复应用GLA）相比，本方法仅在扩散开始前应用一次GLA，显著加速了生成。实验表明，GLA-Grad++在感知语音质量（PESQ）和短时客观可懂度（STOI）上持续优于WaveGrad和GLA-Grad基线，尤其在未见过的说话人（VCTK数据集）场景下优势明显。例如，在VCTK上，GLA-Grad++的PESQ得分（3.772）相比WaveGrad（3.453）提升了约9.2%。该工作的实际意义在于为扩散声码器提供了一种无需重新训练、即插即用的增强方案，能有效提升合成语音在跨领域场景下的稳定性和质量。其主要局限性是方法性能（尤其是阶段切换点）对单个音频文件可能存在依赖性，论文建议未来可自适应选择最佳切换点。 ...

Group Relative Policy Optimization for Text-to-Speech with Large Language Models

📄 Group Relative Policy Optimization for Text-to-Speech with Large Language Models #语音合成 #强化学习 #多语言 #零样本 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #多语言 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Chang Liu（中国科学技术大学，国家语音及语言信息处理工程技术研究中心）通讯作者：Zhen-Hua Ling（中国科学技术大学，国家语音及语言信息处理工程技术研究中心）作者列表：Chang Liu（中国科学技术大学），Ya-Jun Hu（科大讯飞研究院），Ying-Ying Gao（九天人工智能研究院），Shi-Lei Zhang（九天人工智能研究院），Zhen-Hua Ling（中国科学技术大学） 💡 毒舌点评亮点在于巧妙地将源自数学推理的GRPO算法“移植”到语音合成领域，并用一个现成的ASR模型构建了简单有效的复合奖励，实现了训练复杂度的显著降低和性能的稳定提升。短板则在于对“自然度提升”的深层机理探讨不足，仅通过MOS分数和少量示例论证，缺乏更系统的声学或韵律学分析，且Llasa-1B上的主观评估结果不佳也未得到充分解释。 🔗 开源详情代码：提供了GitHub仓库链接：https://ryuclc.github.io/LLM-TTS-GRPO。模型权重：论文提及公开了微调后的模型权重（通过上述链接获取）。数据集：使用了公开的Emilia（微调）、seed-tts-eval和Common Voice（评估）数据集。 Demo：提供了在线音频演示（通过上述链接访问）。复现材料：提供了训练代码、详细的超参数设置（如β, G, 学习率）和实验配置。引用的开源项目：基线TTS模型：CosyVoice2 [4], Llasa-1B [6]。 ASR模型：Whisper-large-v3 [20]。评估工具：Paraformer-zh (来自FunASR[22]) 用于中文CER，WavLM[23]用于说话人嵌入提取。算法参考：GRPO [19] (源自DeepSeekMath)。 📌 核心摘要问题：现有基于大语言模型（LLM）的文本到语音（TTS）模型在使用强化学习（RL）进行微调时，面临训练流程复杂（如PPO需要维护价值模型）、或依赖昂贵的偏好数据（如DPO）等问题。方法核心：提出一种基于分组相对策略优化（GRPO）的微调方法。该方法利用一个现成的自动语音识别（ASR）模型，从生成的语音波形中计算字符错误率（CER）和负对数似然（NLL），并通过调和平均融合为一个复合奖励信号。该奖励用于计算组内相对优势，从而微调预训练的LLM-TTS模型。创新点：首次将GRPO算法应用于LLM-based TTS的微调；设计了一种无需额外训练模型、结合客观可懂度（CER）与模型置信度（NLL）的复合奖励函数。主要实验结果：在CosyVoice2和Llasa-1B两个开源基线模型上，GRPO微调显著提升了零样本合成的可懂度（CER/WER降低）和自然度（MOS提升）。例如，对CosyVoice2，中文CER从1.41降至1.07，英文WER从2.46降至2.30；主观平均意见得分（MOS）在四种语言上均有统计显著提升（如中文从4.42提升至4.58）。消融实验证明，结合CER与NLL的复合奖励优于单一奖励。实际意义：该方法简化了LLM-TTS模型的RL训练管线，使其更稳定、易于实施，并有效提升了合成语音的质量和鲁棒性。主要局限性：方法依赖于一个高质量的ASR模型作为奖励提供者；论文未深入分析NLL奖励如何具体改善语音自然度的机理；在Llasa-1B模型上，RL微调未能带来主观自然度的显著提升，原因未充分探究。 🏗️ 模型架构本文的核心贡献是提出一种基于GRPO的微调流程，而非一个全新的TTS生成架构。其流程如图2所示，适用于两类主流的LLM-based TTS模型。 ...

HD-PPT: Hierarchical Decoding of Content- and Prompt-Preference Tokens for Instruction-Based TTS

📄 HD-PPT: Hierarchical Decoding of Content- and Prompt-Preference Tokens for Instruction-Based TTS #语音合成 #大语言模型 #自回归模型 #对比学习 #模型评估 🔥 8.0/10 | 前25% | #语音合成 | #大语言模型 | #自回归模型 #对比学习学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Sihang Nie（华南理工大学）通讯作者：Xiaofen Xing（华南理工大学）作者列表：Sihang Nie（华南理工大学）、Xiaofen Xing（华南理工大学）、Jingyuan Xing（华南理工大学）、Baiji Liu（华南理工大学，广州趣玩网络科技有限公司）、Xiangmin Xu（佛山大学，华南理工大学） 💡 毒舌点评亮点：论文将“精细控制”这个模糊的目标，拆解为可操作的、由两个专用token监督的分层生成步骤，这种“结构化解耦”的思路非常清晰且有效，实验数据也确实支撑了其优越性。短板：训练过程描述不够细致，例如文本指令的预处理、训练时的正则化细节（如何概率性地掩码隐藏状态和提示token）不够明确，且代码未开源，使得复现其“精妙”的工程实现颇具挑战。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：实验使用了公开数据集TextrolSpeech和EmoVoice-DB，但论文未提供获取方式的额外信息。 Demo：提供了音频样本的在线演示（https://xxh333.github.io/）。复现材料：提供了一些关键训练细节（如GPU型号、学习率、epoch数、模型层数等），但缺乏数据预处理、代码框架、超参数搜索过程等完整复现所需的关键信息。论文中引用的开源项目：CosyVoice/2（语音tokenizer和声码器）、Whisper-Small（ASR）、RoBERTa-base（文本嵌入）、Qwen2.5-0.5B（LLM主干）。总结：论文中未提及开源计划，复现主要依赖公开的第三方模型和论文中提供的部分配置信息。 📌 核心摘要问题：现有基于大语言模型的指令TTS（Instruct-TTS）方法，试图将单层的文本指令直接映射到多层的语音token上，导致精细控制能力不足，存在“层级不匹配”问题。方法核心：提出HD-PPT框架，包含两个核心创新：a) 设计一个新的语音编解码器（Speech Token Codec），通过ASR和CLAP两个监督目标，将语音token解耦为“内容偏好token”（语义）和“提示偏好token”（风格）；b) 设计分层解码策略，引导LLM按“内容基础 -> 风格渲染 -> 完整声学表征”的顺序生成token。新意：相比于直接建模单一语音token序列的方法，本文首次将语音token在生成过程中显式地结构化解耦，并分别用语义和风格目标进行监督，实现了从“隐式映射”到“显式分层生成”的范式转变。主要结果：在TextrolSpeech和EmoVoice-DB两个数据集上，HD-PPT在主观自然度（MOS-N）、风格一致性（MOS-S）和情感相似度（EMO-SIM）指标上均取得了最佳成绩（见表1）。消融实验证明，移除任一偏好token或改变解码策略都会导致性能下降。实际意义：为实现高保真、高可控的语音合成提供了有效框架，提升了LLM在语音生成任务中的指令遵循能力，对智能语音助手、有声内容创作等应用有推动作用。主要局限：多组件架构增加了模型复杂度和部署难度；训练细节部分缺失，不利于完全复现；论文中承认对低资源语言的适应性是一个挑战。表1：在测试集上的主观与客观对比结果 ...