Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens

📄 Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens #语音合成 #扩散模型 #自回归模型 #语音表示 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #语音表示 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology) 通讯作者:未说明 作者列表:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology),He Huang(NVIDIA),Jean-Marie Lemercier(NVIDIA),Subham Sekhar Sahoo(NVIDIA;Cornell Tech),Zhehuai Chen(NVIDIA),Ante Jukić(NVIDIA) 💡 毒舌点评 亮点:论文将新兴的离散扩散模型系统性地应用于语音token重建,并提供了迄今最全面的实证分析,结论(如FSQ优于RVQ、Conf-TopK采样更佳)对后续相关工作有直接的工程指导价值。短板:论文主要贡献是“应用与分析”,而非提出基础理论或解决语音token化中的核心难题(如语义与声学信息的完美解耦),且未探讨其方法对下游语音大模型(如TTS、ASR)性能的影响,使其深度和影响力受限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了Granary英文子集,论文未说明如何公开获取。 Demo:提供了一个Demo页面链接:https://kuray107.github.io/DDMs_on_taste26_examples/demo,用于展示音频样本。 复现材料:论文在“实验设置”部分给出了详细的训练配置(GPU型号/数量、batch size、优化器、学习率策略、两阶段训练步数、模型参数量)、评估指标和采样器设置,为复现提供了充分的文字指导。 论文中引用的开源项目: 量化方案:Finite Scalar Quantization (FSQ) [26] 预训练模型:Whisper [21], NVIDIA NeMo [25], CosyVoice [17], HiFi-GAN vocoder [23] 评估工具:Torchaudio-Squim [30], WavLM [33], TitaNet [34], WV-MOS [31], UTMOS [32] DDM相关:D3PM [1], MDLM [2], ReMDM [4], Confidence-based Samplers [13, 14, 15] 📌 核心摘要 要解决什么问题:现有的TASTE语音token化框架依赖自回归(AR)解码器来重建语音,这导致推理速度慢,且重建质量可能非最优。 方法核心是什么:提出用离散扩散模型(DDM)替代TASTE中的AR解码器。模型在推理时,通过迭代去噪(从全掩码到逐步揭示)来并行预测S3 token序列,再由vocoder生成波形。 与已有方法相比新在哪里:首次在TASTE框架中系统性地应用并分析DDM。与AR解码器相比,DDM解码具有并行性,且质量更高。同时,论文系统比较了向量量化方案(RVQ vs. FSQ),发现FSQ能显著提升性能。 主要实验结果如何:在LibriSpeech数据集上,DDM解码器相比AR基线实现了3.3倍的推理速度提升(测试集1.65秒 vs. 5.48秒)。使用RVQ量化时,DDM的WER比AR降低35%(测试集:5.10% vs. 7.60%),UT-MOS提升0.45(4.27 vs. 3.82)。使用FSQ量化后,性能进一步提升,AR模型的WER相对降低35%,UT-MOS提升0.14。DDM模型在10步推理时即可达到峰值性能,甚至单步推理也基本可用。关键实验结果对比如下表: 模型 量化方式 测试集 WER (%) ↓ UT-MOS ↑ AR基线 4L-RVQ test-clean 7.60 3.82 本文DDM 4L-RVQ test-clean 5.10 4.27 本文DDM 4L-FSQ test-clean 4.00 4.30 本文DDM 10步 test-clean 3.70 4.28 本文DDM 单步 test-clean 5.14 3.81 实际意义是什么:为语音token化中的高效、高质量解码提供了一个优于自回归范式的新方案,展示了离散扩散模型在条件生成任务中的潜力,并提供了工程实践上的具体指导(如采样器选择、步数设置)。 主要局限性是什么:模型性能严重依赖一个外部长度预测器来估计S3 token序列长度;论文未验证该改进的语音表示对下游语音大模型(如端到端TTS、ASR)的具体增益;其优势建立在强条件(文本+TASTE embedding)上,对于无条件或弱条件生成任务的普适性未探讨。 🏗️ 模型架构 本文模型架构建立在TASTE框架之上,包含两个主要部分:TASTE Tokenizer和解码器(AR或DDM)。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 392 words

DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance

📄 DMP-TTS: Disentangled Multi-Modal Prompting for Controllable Text-to-Speech with Chained Guidance #语音合成 #扩散模型 #可控语音 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #可控语音 #对比学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kang Yin(中国科学技术大学),Chunyu Qiang(快手科技) (论文标注†表示同等贡献,故两位均为第一作者) 通讯作者:Sirui Zhao(中国科学技术大学),Tong Xu(中国科学技术大学),Chen Zhang(快手科技) (论文标注*表示通讯作者) 作者列表: Kang Yin(中国科学技术大学) Chunyu Qiang(快手科技) Sirui Zhao(中国科学技术大学) Xiaopeng Wang(快手科技) Yuzhe Liang(快手科技) Pengfei Cai(中国科学技术大学) Tong Xu(中国科学技术大学) Chen Zhang(快手科技) Enhong Chen(中国科学技术大学) 💡 毒舌点评 本文的亮点在于将风格编码、解耦训练和引导推理整合成了一套逻辑自洽且实用的方案,Style-CLAP的多任务设计和cCFG的层级控制思路清晰有效,实验数据扎实,切实推动了可控TTS在解耦方向上的进步。然而,其创新更多是“优秀的组合”而非“从零的突破”,且说话人相似度这一关键指标不及部分基线,暴露出在追求强风格表达时维持音色一致性仍是未完全攻克的难题。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 399 words

Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems

📄 Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems #语音合成 #模型评估 #数据集 #语音情感识别 #人类感知评估 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #数据集 #语音情感识别 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Cheng Lin(National Taiwan University) 通讯作者:未说明 作者列表:Yi-Cheng Lin(National Taiwan University)、Huang-Cheng Chou(University of Southern California)、Tzu-Chieh Wei(University of Michigan)、Kuan-Yu Chen(National Taiwan University)、Hung-yi Lee(National Taiwan University) 💡 毒舌点评 亮点在于精准定义了指令引导TTS领域一个被忽视的关键问题——“指令-感知鸿沟”,并首次系统性地引入了程度副词和情感强度形容词这两个细粒度维度进行量化评估,为未来研究提供了明确的改进靶点和高质量的基准数据集(E-VOC)。短板是,虽然评估框架设计精巧,但论文在分析环节更侧重于现象描述(如“模型倾向于生成成人声音”),对于导致这些现象的模型架构差异、训练数据偏差等深层原因挖掘不足,使得结论的启发性略打折扣。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及(论文评估的是已有模型,未提出新模型)。 数据集:论文明确表示将公开发布的“Expressive VOice Control (E-VOC) corpus”,包含60,000+人类评分,但未提供当前获取链接。 Demo:未提及。 复现材料:论文描述了E-VOC的构建过程(文本生成、提示词设计、标注流程、质量控制协议),并提供了评估指标(表2,表3,表4)和结果图表(图1,图2),为复现其评估实验提供了必要信息。 论文中引用的开源项目:引用了Parler-TTS(开源)、PromptTTS++(开源)、UniAudio(开源)的模型或代码库。评估中的其他依赖如CREPE(音高估计模型)、NRC Emotion Intensity Lexicon(情感词典)也是公开资源。 论文中未提及开源计划:关于分析流水线(Analysis Pipeline)的具体代码,论文提到将公开,但未给出链接。 📌 核心摘要 要解决什么问题:当前指令引导的文本转语音(ITTS)系统虽允许用户通过自然语言控制语音风格,但用户指令与听众感知之间的实际对齐程度,尤其是对细粒度属性(如不同强度的情感、不同年龄的声音)的控制能力,尚未被系统性量化研究,存在一个“指令-感知鸿沟”。 方法核心:本文提出了一个全新的评估框架,首次引入“程度副词”(如 slightly, extremely)和“情感强度形容词”(如 Content, Happy, Ecstatic)作为控制维度,结合传统的说话人年龄和词汇重音控制任务,对ITTS系统进行综合评估。为此,他们构建了一个名为E-VOC(Expressive VOice Control)的大规模人类评估数据集,包含超过60,000个人类评分。 与已有方法相比新在哪里:不同于以往研究仅使用粗粒度的情感或风格标签(如“快乐”),或依赖自动分类器进行客观评估,本工作首次在人类感知评估中纳入了连续、分级的表达属性(程度和情感强度),并通过大规模众包获得了可靠的人类感知基准,更直接地反映了用户意图与最终感知的差异。 主要实验结果如何:评估了5个代表性ITTS系统。结果显示:(1) gpt-4o-mini-tts是唯一能在响度、音高、语速和情感强度上可靠遵循程度指令并产生可感知梯度变化的模型。(2) 所有模型在控制说话人年龄方面表现均不佳(最佳准确率仅29.4%),且普遍倾向于生成“成人”声音,即使指令要求“儿童”或“老人”声音。(3) 词汇重音控制极具挑战性,最佳模型(gpt-4o)的准确率也仅为26.5%。具体关键数据见下表。 任务 模型 关键指标(数值) 说话人年龄 (Age) 总体准确率 (最高) 0.294 (Parler-large) 总体准确率 (gpt-4o) 0.289 F1-score (Child, 最高) 0.113 (Parler-large) F1-score (Elderly, 最高) 0.339 (UniAudio) 词汇重音 (Emphasis) 总体准确率 (最高) 0.265 (gpt-4o) 总体准确率 (随机基线) ≈0.143 实际意义是什么:本工作为ITTS系统的评估和开发建立了新的、更贴近真实用户需求的基准。E-VOC数据集的公开将极大推动该领域在细粒度控制、人类感知对齐等方面的研究,并为开发更可靠的自动评估工具提供了训练数据。 主要局限性是:研究仅评估了5个模型,结论的普适性需验证;论文未对导致“指令-感知鸿沟”的具体模型架构或训练因素进行深入分析;评估仅限英语,未涉及多语言场景。 🏗️ 模型架构 论文中未提供具体的模型架构图或详细描述。本文的核心贡献是评估框架、数据集和分析方法,而非提出一个新的TTS模型。文中所评估的ITTS系统(如Parler-TTS, PromptTTS++, gpt-4o-mini-tts)均为已有系统,论文重点在于评估它们在新维度上的表现,而非剖析其内部架构。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 224 words

ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization

📄 ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization #语音匿名化 #语音情感识别 #自监督学习 #生成模型 #语音合成 🔥 8.5/10 | 前25% | #语音匿名化 | #生成模型 | #语音情感识别 #自监督学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chenghan Lin(天津大学人工智能学院,认知计算与应用天津市重点实验室) 通讯作者:Longbiao Wang(天津大学人工智能学院,认知计算与应用天津市重点实验室;苏州智研信息技术有限公司),Kong Aik Lee(香港理工大学) 作者列表:Chenghan Lin(天津大学)、Junjie Li(香港理工大学)、Tingting Wang(南京邮电大学通信与信息工程学院)、Meng Ge(天津大学)、Longbiao Wang(天津大学,苏州智研信息技术有限公司)、Kong Aik Lee(香港理工大学)、Jianwu Dang(中国科学院深圳先进技术研究院) 💡 毒舌点评 这篇论文的亮点在于其系统性地解构并攻克了“匿名化必然损伤情感”这一核心矛盾,提出的双分支补偿模块设计思路清晰,从数据集先验(静态)和实例残差(动态)两个层面进行修复,实验结果也确实显著优于同类工作。短板则在于其验证范围较为局限,虽然在IEMOCAP上表现优异,但整个系统在非英语环境下的鲁棒性以及面对更复杂情感(如混合情绪)的处理能力,论文未提供任何数据支撑,使得这个“通用解决方案”的宣称打上了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中使用的VoxCeleb-2, MSP-IMPROV, ESD, LibriSpeech, IEMOCAP均为公开数据集。未提及是否公开了处理后的实验数据或中间产物。 Demo:未提及。 复现材料:论文在“实现细节”部分提供了优化器、学习率、损失函数权重等关键超参数,为复现提供了重要信息。未提供训练日志、检查点或附录。 论文中引用的开源项目:emotion2vec+, ECAPA-TDNN, HuBERT, OHNN, HiFi-GAN。 论文中未提及开源计划。 📌 核心摘要 要解决的问题:现有的说话人匿名化技术(如基于OHNN的方案)在有效隐藏说话人身份的同时,会严重破坏语音中的情感信息,限制了其在医疗、人机交互等情感敏感场景中的应用。 方法核心:提出一个名为ECSA的情感保留说话人匿名化框架。其核心是双分支情感补偿(D-PEC)模块:一个静态补偿器利用数据集层面的情感原型和软标签进行全局先验补偿;一个动态补偿器通过非线性网络挖掘并增强匿名化嵌入中的残差情感线索。此外,在HiFi-GAN声码器训练中引入了情感一致性损失,确保合成语音与补偿后的嵌入在情感空间对齐。 与已有方法相比新在哪里:摒弃了先前方法中易泄露说话人信息的外接情感编码器。首次提出并行处理数据集全局先验(静态分支)和单条语音残差信号(动态分支)的补偿机制。创新性地将情感一致性约束直接集成到声码器训练中,引导生成器利用情感信息。 主要实验结果:在VPC 2024基准测试上,ECSA在情感保留(UAR)上取得了最佳性能(测试集64.21%),显著超越了所有基线(如P3的57.93%)和顶级参赛系统(如T10的60.87%),同时保持了具有竞争力的匿名化强度(EER 39.69%)和内容可懂度(WER 2.52%)。消融实验证明,移除动态分支、静态分支或情感一致性损失均会导致UAR显著下降,尤其是对悲伤类情感的识别率。 实际意义:该研究为隐私保护技术在实际情感计算应用中的落地提供了可行的解决方案,有望推动语音匿名化技术从“仅保护隐私”向“隐私与效用兼得”的方向发展。 主要局限性:实验评估集中于英语数据集(VPC 2024, IEMOCAP),其在其他语言或方言上的有效性未经验证。模型训练依赖多个预训练组件(emotion2vec+, ECAPA-TDNN, HuBERT),其复杂性增加了部署难度。 🏗️ 模型架构 ECSA框架由说话人匿名化前端和情感补偿后端组成,其推理流程如下(参照论文图1): ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 404 words

EMG-to-Speech with Fewer Channels

📄 EMG-to-Speech with Fewer Channels #语音合成 #多任务学习 #少样本 #数据增强 #生物声学 ✅ 7.5/10 | 前25% | #语音合成 | #多任务学习 | #少样本 #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Injune Hwang (首尔大学 智能与信息学系) 通讯作者:Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目) 作者列表:Injune Hwang (首尔大学 智能与信息学系), Jaejun Lee (首尔大学 智能与信息学系), Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目) 💡 毒舌点评 论文最大的亮点在于实验设计的系统性,通过贪心消除、穷举子集和音素分析三管齐下,将“哪些通道更重要”这个问题从工程选择上升到了对肌肉运动互补性的理解层面,其提出的“通道dropout微调”方案也切实有效。然而,所有结论和实验均局限于单说话人公开数据集,这使得其“推动实用化”的宣称在迈向真实、多变的用户场景时显得说服力不足,且模型架构本身并未跳出Gaddy et al. [13] 的框架。 🔗 开源详情 代码:论文中提供了开源代码仓库链接:https://github.com/SPJune/SS_by_Channel。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:实验使用的数据集(Gaddy et al. [5])为公开数据集。 Demo:论文中未提及提供在线演示。 复现材料:论文说明了遵循官方预处理流程,并给出了通道dropout的具体概率设置。但未提供完整的训练超参数(如优化器、学习率、批大小)。 论文中引用的开源项目: 模型架构基于Gaddy et al. [13] 的开源代码库:https://github.com/dgaddy/silent_speech 声码器使用了HiFi-GAN [16]��� 语音识别使用了OpenAI的Whisper模型 [17]。 📌 核心摘要 解决问题:表面肌电图(EMG)驱动的无声语音接口性能高度依赖传感器通道数量和位置,但减少通道会导致性能下降。本文旨在系统研究通道重要性,并缓解通道减少带来的性能损失。 方法核心:采用基于卷积和Transformer的EMG编码器模型,通过预测梅尔谱图(语音合成)和音素标签(多任务学习)进行预训练。核心策略是在预训练时引入通道dropout(随机屏蔽部分通道),然后在减少通道的子集上进行微调。 新意:(1) 通过贪心消除和穷举评估所有4通道组合(70种),系统量化了单个通道及通道组合的重要性,揭示了通道间的互补性;(2) 进行了音素级别的消融分析,将通道作用与具体语音学范畴(如擦音、塞音)关联;(3) 提出并验证了基于通道dropout的预训练-微调策略优于从头训练。 主要结果: 4通道子集的最佳WER为47.2%(通道{1,3,5,6}),优于贪心选择的{1,2,3,4}(48.1%)。各通道在所有4通道子集中出现的平均WER排名为:3(51.4) < 2(52.3) < 1(52.6) < 5(52.8) < 6(53.1) < 4(53.7) < 7(53.8) < 8(54.8)。 音素分析表明,去除不同通道对不同类别音素影响显著(如去除通道8对双唇音影响最大,去除通道7对高前元音影响最大)。 在4-6通道设置下,微调模型(基于8通道预训练权重)的WER一致性地低于从头训练的模型。例如,对于4通道最佳子集,微调(dropout p=0)WER为47.2%,而从头训练约为49.5%(根据图3估算)。 实际意义:证明了通过智能的训练策略(预训练+通道dropout+微调),可以在使用更少、更少侵入性传感器时,保持可接受的语音重建性能,有助于开发更轻便、实用的无声语音设备。 主要局限性:(1) 实验仅在单一说话人、单一数据集(Gaddy et al. [5])上验证,结论对其他说话人或场景的泛化能力未知;(2) 最佳通道子集和dropout概率对具体数据集和任务敏感,缺乏普适性指导;(3) 未与近期其他先进的EMG-to-speech模型(如基于扩散的模型)进行对比。 🏗️ 模型架构 论文沿用了Gaddy et al. [13] 提出的EMG-to-speech框架(如图1所示),其核心是一个结合了卷积层和Transformer层的序列模型。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 380 words

Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling

📄 Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling #语音识别 #语音合成 #数据集 #零样本 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #语音合成 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Huan Liao(The Chinese University of Hong Kong, Shenzhen)(论文注明与Qinke Ni同等贡献) 通讯作者:未明确说明(论文中未明确指出通讯作者) 作者列表:Huan Liao(The Chinese University of Hong Kong, Shenzhen),Qinke Ni(The Chinese University of Hong Kong, Shenzhen),Yuancheng Wang(The Chinese University of Hong Kong, Shenzhen),Yiheng Lu(The Chinese University of Hong Kong, Shenzhen),Haoyue Zhan(Guangzhou Quwan Network Technology),Pengyuan Xie(Guangzhou Quwan Network Technology),Qiang Zhang(Guangzhou Quwan Network Technology),Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen) 💡 毒舌点评 亮点在于系统性地填补了普通话副语言词级标注数据的空白,并提出了一个可扩展的标注流水线,为“类人”语音建模提供了急需的燃料。短板在于TTS部分的创新更多是“应用验证”而非“方法突破”,且文中对模型训练的关键细节(如超参数)披露不足,让想复现的同行感到些许乏力。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 391 words

EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS

📄 EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS #语音合成 #强化学习 #语音情感识别 #大语言模型 🔥 8.5/10 | 前25% | #语音合成 | #强化学习 | #语音情感识别 #大语言模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haoxun Li(杭州高等研究院、中国科学院大学) 通讯作者:Taihao Li(杭州高等研究院、中国科学院大学) 作者列表:Haoxun Li(杭州高等研究院、中国科学院大学)、Yu Liu(未说明具体机构)、Yuqing Sun(未说明具体机构)、Hanlei Shi(未说明具体机构)、Leyuan Qu(未说明具体机构)、Taihao Li(杭州高等研究院、中国科学院大学) 💡 毒舌点评 亮点:本文创新性地将强化学习(GRPO)引入LLM-TTS,为解决其“离散Token难以表达连续情感”的痛点提供了优雅的框架,并首次实现了同时控制VAD全局强度和局部词强调,实验数据全面且显著优于基线。 短板:论文声称是“本地PDF”,但缺乏对代码和模型权重公开的明确承诺,严重阻碍了社区的复现与跟进;另外,对“惊讶”等少数情感的强调控制效果较弱,表明模型的泛化能力仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。仅提供了一个Demo页面(https://wd-233.github.io/EMORL-TTS_DEMO/)。 模型权重:未提及是否公开模型权重。 数据集:使用的ESD和Expresso是公开数据集,但GRPO阶段构建的1000句带强调标注的文本语料未公开。 Demo:提供了在线合成演示页面。 复现材料:论文详细描述了两阶段训练流程、损失函数、奖励设计公式和主要超参数,这为复现提供了较好的理论指导。但缺乏训练脚本、具体配置文件和模型检查点。 论文中引用的开源项目/工具:依赖的基座模型 Spark-TTS,情感识别模型 Emotion2vec,强制对齐工具 NeMo Forced Aligner,以及VAD预测器均为开源或已有工作。 📌 核心摘要 问题:基于大语言模型的语音合成系统虽能实现高质量零样本合成,但由于其依赖离散语音Token,难以实现对情感的细粒度控制(如连续强度、重点词强调)。 方法核心:提出EMORL-TTS框架,通过监督微调(SFT)与强化学习(GRPO)相结合的方式,统一建模全局情感强度(在VAD空间)与局部语音强调(通过音高和能量特征)。强化学习阶段使用三个任务特定奖励:情感分类准确性、全局VAD强度匹配度和局部强调清晰度。 创新点:a) 首次将VAD空间的全局情感强度控制引入LLM-TTS;b) 设计了基于韵律特征的局部强调控制机制;c) 构建了融合全局与局部控制的统一框架。 实验结果:实验表明,EMORL-TTS在情感准确性(目标与感知准确率均达0.88以上)、强度区分度(平均识别率0.71)和强调清晰度(平均准确率0.75)上均显著优于CosyVoice2、Emosphere++等强基线,同时MOS(4.94)和NISQA(4.11)分数与之相当,证明控制能力提升未牺牲合成质量。具体关键数据如下表所示: 表1:情感准确性客观评估(Emotion2vec准确率) ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 274 words

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

📄 EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis #语音合成 #激活引导 #大语言模型 #流匹配 #轻量级 ✅ 7.0/10 | 前50% | #语音合成 | #激活引导 | #大语言模型 #流匹配 学术质量 6.0/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Li Zhou(香港中文大学,深圳分校) 通讯作者:Haizhou Li(香港中文大学,深圳分校) 作者列表:Li Zhou†(香港中文大学,深圳分校)、Hao Jiang†(香港中文大学,深圳分校)、Junjie Li(香港理工大学)、Tianrui Wang(天津大学)、Haizhou Li*(香港中文大学,深圳分校) 💡 毒舌点评 亮点在于用仅10M参数(全微调的1/30)在情感表现力上超越了基线,且证明了通过调节引导系数α可实现情感强度的连续控制,这为参数高效的情感语��合成提供了一个优雅的方案。短板则是其“即插即用”的优势目前仅在一个中等规模、多情感的单语言数据集(ESD)上得到验证,对于更复杂的复合情感、跨语言场景或更大规模的基础模型的适用性有待考察。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用公开的ESD数据集,但未提供获取方式或预处理脚本。 Demo:未提及在线演示。 复现材料:提供了关键方法框架、部分超参数(ε, α, 学习率, 轮数)和实验设置描述,但缺少优化器、batch size、硬件、完整数据处理流程等细节。 论文中引用的开源项目:CosyVoice(骨干模型)、Whisper-Large-v3(ASR评估)、WavLM-Base(SpkSIM计算)、DNSMOS(质量评估)、emotion2vec(情感识别评估)。 总结:论文中未提及开源计划。 📌 核心摘要 这篇论文针对情感语音合成中模型难以直接建模情感特有潜在动态的问题,提出了EmoShift框架。其核心是在基于LLM的TTS模型中引入一个名为EmoSteer的轻量层,该层为每种目标情感学习一个特定的转向向量,用于在输出嵌入空间中捕获相对于中性表达的潜在偏移量。与以往通过缩放固定情感嵌入或依赖外部指导的方法不同,EmoShift直接学习并注入情感特异性的激活偏移,实现了更精确和一致的控制。在ESD数据集上的实验表明,EmoShift以仅10M的可训练参数,在情感分类准确率(如整体从69.68%提升至74.26%)和主观情感评分(Emo-MOS从3.67提升至3.96)上均优于零样本和全参数微调基线。此外,分析显示,通过在推理时调整缩放因子α,可以平滑调节情感强度。该方法的意义在于提供了一种参数高效、可解释且即插即用的情感控制方案。主要局限性在于实验仅在单一英文数据集和有限的五种情感上进行验证。 🏗️ 模型架构 EmoShift的框架如图2所示,其核心是在一个基于LLM的自回归语音合成模型(骨干为CosyVoice-300M-Instruct)中插入了一个EmoSteer层。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 296 words

Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization

📄 Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization #语音合成 #扩散模型 #强化学习 #语音情感识别 🔥 8.0/10 | 前25% | #语音合成 | #扩散模型 #强化学习 | #扩散模型 #强化学习 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未明确说明(论文未明确指定通讯作者,但根据邮箱{jshi12, hdu02, ygao18}@wm.edu 推断,作者可能来自同一实验室) 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Yangfan He(University of Minnesota - Twin Cities)、Y. Alicia Hong(George Mason University)、Ye Gao(College of William & Mary) 💡 毒舌点评 本文最亮眼的地方在于其核心洞察:在扩散模型中,直接将终点偏好传播到中间步骤是“有缺陷的假设”,并为此设计了优雅的“逐步对齐”框架(EASPO),这确实为情感等需要时序精细控制的任务提供了新的思路。然而,其提出的EASPM评分模型重度依赖CLEP在特定情感数据集上的微调,其泛化能力,尤其是在不同说话人、语言和更复杂情感维度上的表现,是最大的潜在短板,且实验仅在英语数据集上验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 402 words

Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations #音频大模型 #音频安全 #对抗样本 #语音合成 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #音频大模型 #语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)(注:论文标明三位为共同第一作者) 通讯作者:Hung-yi Lee(台湾大学)(注:论文未明确标注通讯作者,Hung-yi Lee为资深作者,按惯例推断) 作者列表:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)、Chih-Kai Yang(台湾大学)、Szu-Wei Fu(NVIDIA)、Zhehuai Chen(NVIDIA)、Ke-Han Lu(台湾大学)、Sung-Feng Huang(NVIDIA)、Chao-Han Huck Yang(NVIDIA)、Yu-Chiang Frank Wang(NVIDIA)、Yun-Nung Chen(台湾大学)、Hung-yi Lee(台湾大学) 💡 毒舌点评 这篇论文的“问题嗅觉”非常灵敏,精准地抓住了大型音频语言模型在“情绪化表达”这一软肋上的安全漏洞,并用一套严谨的控制变量实验(同一指令、同一说话人、不同情绪与强度)给出了令人信服的实证证据,这是其最大亮点。然而,论文在揭示问题后戛然而止,未能进一步探索漏洞产生的原因(如数据偏差、模型架构缺陷)或提出任何防御/改进方案,使其研究深度略显不足,更像是一个扎实的“安全审计报告”,而非一个完整的“攻防研究”。此外,模型评估的全面性可以进一步加强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文明确提供数据集获取链接:https://huggingface.co/LALM-emotional-vulnerability。 Demo:未提及。 复现材料:论文描述了数据集构建流程和评估指标,但未提供完整的训练细节、配置或检查点。 论文中引用的开源项目:主要依赖AdvBench(文本有害查询)、CREMA-D(情感语音参考)和CosyVoice 2(TTS模型)。 📌 核心摘要 问题:大型音频语言模型(LALMs)的安全对齐在面对说话人情感(副语言信息)变化时,存在尚未被系统研究的脆弱性。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 230 words