ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization

📄 ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization #语音匿名化 #语音情感识别 #自监督学习 #生成模型 #语音合成 🔥 8.5/10 | 前25% | #语音匿名化 | #生成模型 | #语音情感识别 #自监督学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chenghan Lin(天津大学人工智能学院,认知计算与应用天津市重点实验室) 通讯作者:Longbiao Wang(天津大学人工智能学院,认知计算与应用天津市重点实验室;苏州智研信息技术有限公司),Kong Aik Lee(香港理工大学) 作者列表:Chenghan Lin(天津大学)、Junjie Li(香港理工大学)、Tingting Wang(南京邮电大学通信与信息工程学院)、Meng Ge(天津大学)、Longbiao Wang(天津大学,苏州智研信息技术有限公司)、Kong Aik Lee(香港理工大学)、Jianwu Dang(中国科学院深圳先进技术研究院) 💡 毒舌点评 这篇论文的亮点在于其系统性地解构并攻克了“匿名化必然损伤情感”这一核心矛盾,提出的双分支补偿模块设计思路清晰,从数据集先验(静态)和实例残差(动态)两个层面进行修复,实验结果也确实显著优于同类工作。短板则在于其验证范围较为局限,虽然在IEMOCAP上表现优异,但整个系统在非英语环境下的鲁棒性以及面对更复杂情感(如混合情绪)的处理能力,论文未提供任何数据支撑,使得这个“通用解决方案”的宣称打上了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中使用的VoxCeleb-2, MSP-IMPROV, ESD, LibriSpeech, IEMOCAP均为公开数据集。未提及是否公开了处理后的实验数据或中间产物。 Demo:未提及。 复现材料:论文在“实现细节”部分提供了优化器、学习率、损失函数权重等关键超参数,为复现提供了重要信息。未提供训练日志、检查点或附录。 论文中引用的开源项目:emotion2vec+, ECAPA-TDNN, HuBERT, OHNN, HiFi-GAN。 论文中未提及开源计划。 📌 核心摘要 要解决的问题:现有的说话人匿名化技术(如基于OHNN的方案)在有效隐藏说话人身份的同时,会严重破坏语音中的情感信息,限制了其在医疗、人机交互等情感敏感场景中的应用。 方法核心:提出一个名为ECSA的情感保留说话人匿名化框架。其核心是双分支情感补偿(D-PEC)模块:一个静态补偿器利用数据集层面的情感原型和软标签进行全局先验补偿;一个动态补偿器通过非线性网络挖掘并增强匿名化嵌入中的残差情感线索。此外,在HiFi-GAN声码器训练中引入了情感一致性损失,确保合成语音与补偿后的嵌入在情感空间对齐。 与已有方法相比新在哪里:摒弃了先前方法中易泄露说话人信息的外接情感编码器。首次提出并行处理数据集全局先验(静态分支)和单条语音残差信号(动态分支)的补偿机制。创新性地将情感一致性约束直接集成到声码器训练中,引导生成器利用情感信息。 主要实验结果:在VPC 2024基准测试上,ECSA在情感保留(UAR)上取得了最佳性能(测试集64.21%),显著超越了所有基线(如P3的57.93%)和顶级参赛系统(如T10的60.87%),同时保持了具有竞争力的匿名化强度(EER 39.69%)和内容可懂度(WER 2.52%)。消融实验证明,移除动态分支、静态分支或情感一致性损失均会导致UAR显著下降,尤其是对悲伤类情感的识别率。 实际意义:该研究为隐私保护技术在实际情感计算应用中的落地提供了可行的解决方案,有望推动语音匿名化技术从“仅保护隐私”向“隐私与效用兼得”的方向发展。 主要局限性:实验评估集中于英语数据集(VPC 2024, IEMOCAP),其在其他语言或方言上的有效性未经验证。模型训练依赖多个预训练组件(emotion2vec+, ECAPA-TDNN, HuBERT),其复杂性增加了部署难度。 🏗️ 模型架构 ECSA框架由说话人匿名化前端和情感补偿后端组成,其推理流程如下(参照论文图1): ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 404 words

EMG-to-Speech with Fewer Channels

📄 EMG-to-Speech with Fewer Channels #语音合成 #多任务学习 #少样本 #数据增强 #生物声学 ✅ 7.5/10 | 前25% | #语音合成 | #多任务学习 | #少样本 #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Injune Hwang (首尔大学 智能与信息学系) 通讯作者:Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目) 作者列表:Injune Hwang (首尔大学 智能与信息学系), Jaejun Lee (首尔大学 智能与信息学系), Kyogu Lee (首尔大学 智能与信息学系 / 人工智能研究所 / 人工智能跨学科项目) 💡 毒舌点评 论文最大的亮点在于实验设计的系统性,通过贪心消除、穷举子集和音素分析三管齐下,将“哪些通道更重要”这个问题从工程选择上升到了对肌肉运动互补性的理解层面,其提出的“通道dropout微调”方案也切实有效。然而,所有结论和实验均局限于单说话人公开数据集,这使得其“推动实用化”的宣称在迈向真实、多变的用户场景时显得说服力不足,且模型架构本身并未跳出Gaddy et al. [13] 的框架。 🔗 开源详情 代码:论文中提供了开源代码仓库链接:https://github.com/SPJune/SS_by_Channel。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:实验使用的数据集(Gaddy et al. [5])为公开数据集。 Demo:论文中未提及提供在线演示。 复现材料:论文说明了遵循官方预处理流程,并给出了通道dropout的具体概率设置。但未提供完整的训练超参数(如优化器、学习率、批大小)。 论文中引用的开源项目: 模型架构基于Gaddy et al. [13] 的开源代码库:https://github.com/dgaddy/silent_speech 声码器使用了HiFi-GAN [16]��� 语音识别使用了OpenAI的Whisper模型 [17]。 📌 核心摘要 解决问题:表面肌电图(EMG)驱动的无声语音接口性能高度依赖传感器通道数量和位置,但减少通道会导致性能下降。本文旨在系统研究通道重要性,并缓解通道减少带来的性能损失。 方法核心:采用基于卷积和Transformer的EMG编码器模型,通过预测梅尔谱图(语音合成)和音素标签(多任务学习)进行预训练。核心策略是在预训练时引入通道dropout(随机屏蔽部分通道),然后在减少通道的子集上进行微调。 新意:(1) 通过贪心消除和穷举评估所有4通道组合(70种),系统量化了单个通道及通道组合的重要性,揭示了通道间的互补性;(2) 进行了音素级别的消融分析,将通道作用与具体语音学范畴(如擦音、塞音)关联;(3) 提出并验证了基于通道dropout的预训练-微调策略优于从头训练。 主要结果: 4通道子集的最佳WER为47.2%(通道{1,3,5,6}),优于贪心选择的{1,2,3,4}(48.1%)。各通道在所有4通道子集中出现的平均WER排名为:3(51.4) < 2(52.3) < 1(52.6) < 5(52.8) < 6(53.1) < 4(53.7) < 7(53.8) < 8(54.8)。 音素分析表明,去除不同通道对不同类别音素影响显著(如去除通道8对双唇音影响最大,去除通道7对高前元音影响最大)。 在4-6通道设置下,微调模型(基于8通道预训练权重)的WER一致性地低于从头训练的模型。例如,对于4通道最佳子集,微调(dropout p=0)WER为47.2%,而从头训练约为49.5%(根据图3估算)。 实际意义:证明了通过智能的训练策略(预训练+通道dropout+微调),可以在使用更少、更少侵入性传感器时,保持可接受的语音重建性能,有助于开发更轻便、实用的无声语音设备。 主要局限性:(1) 实验仅在单一说话人、单一数据集(Gaddy et al. [5])上验证,结论对其他说话人或场景的泛化能力未知;(2) 最佳通道子集和dropout概率对具体数据集和任务敏感,缺乏普适性指导;(3) 未与近期其他先进的EMG-to-speech模型(如基于扩散的模型)进行对比。 🏗️ 模型架构 论文沿用了Gaddy et al. [13] 提出的EMG-to-speech框架(如图1所示),其核心是一个结合了卷积层和Transformer层的序列模型。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 380 words

Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling

📄 Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling #语音识别 #语音合成 #数据集 #零样本 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #语音合成 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Huan Liao(The Chinese University of Hong Kong, Shenzhen)(论文注明与Qinke Ni同等贡献) 通讯作者:未明确说明(论文中未明确指出通讯作者) 作者列表:Huan Liao(The Chinese University of Hong Kong, Shenzhen),Qinke Ni(The Chinese University of Hong Kong, Shenzhen),Yuancheng Wang(The Chinese University of Hong Kong, Shenzhen),Yiheng Lu(The Chinese University of Hong Kong, Shenzhen),Haoyue Zhan(Guangzhou Quwan Network Technology),Pengyuan Xie(Guangzhou Quwan Network Technology),Qiang Zhang(Guangzhou Quwan Network Technology),Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen) 💡 毒舌点评 亮点在于系统性地填补了普通话副语言词级标注数据的空白,并提出了一个可扩展的标注流水线,为“类人”语音建模提供了急需的燃料。短板在于TTS部分的创新更多是“应用验证”而非“方法突破”,且文中对模型训练的关键细节(如超参数)披露不足,让想复现的同行感到些许乏力。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 391 words

EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS

📄 EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS #语音合成 #强化学习 #语音情感识别 #大语言模型 🔥 8.5/10 | 前25% | #语音合成 | #强化学习 | #语音情感识别 #大语言模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haoxun Li(杭州高等研究院、中国科学院大学) 通讯作者:Taihao Li(杭州高等研究院、中国科学院大学) 作者列表:Haoxun Li(杭州高等研究院、中国科学院大学)、Yu Liu(未说明具体机构)、Yuqing Sun(未说明具体机构)、Hanlei Shi(未说明具体机构)、Leyuan Qu(未说明具体机构)、Taihao Li(杭州高等研究院、中国科学院大学) 💡 毒舌点评 亮点:本文创新性地将强化学习(GRPO)引入LLM-TTS,为解决其“离散Token难以表达连续情感”的痛点提供了优雅的框架,并首次实现了同时控制VAD全局强度和局部词强调,实验数据全面且显著优于基线。 短板:论文声称是“本地PDF”,但缺乏对代码和模型权重公开的明确承诺,严重阻碍了社区的复现与跟进;另外,对“惊讶”等少数情感的强调控制效果较弱,表明模型的泛化能力仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。仅提供了一个Demo页面(https://wd-233.github.io/EMORL-TTS_DEMO/)。 模型权重:未提及是否公开模型权重。 数据集:使用的ESD和Expresso是公开数据集,但GRPO阶段构建的1000句带强调标注的文本语料未公开。 Demo:提供了在线合成演示页面。 复现材料:论文详细描述了两阶段训练流程、损失函数、奖励设计公式和主要超参数,这为复现提供了较好的理论指导。但缺乏训练脚本、具体配置文件和模型检查点。 论文中引用的开源项目/工具:依赖的基座模型 Spark-TTS,情感识别模型 Emotion2vec,强制对齐工具 NeMo Forced Aligner,以及VAD预测器均为开源或已有工作。 📌 核心摘要 问题:基于大语言模型的语音合成系统虽能实现高质量零样本合成,但由于其依赖离散语音Token,难以实现对情感的细粒度控制(如连续强度、重点词强调)。 方法核心:提出EMORL-TTS框架,通过监督微调(SFT)与强化学习(GRPO)相结合的方式,统一建模全局情感强度(在VAD空间)与局部语音强调(通过音高和能量特征)。强化学习阶段使用三个任务特定奖励:情感分类准确性、全局VAD强度匹配度和局部强调清晰度。 创新点:a) 首次将VAD空间的全局情感强度控制引入LLM-TTS;b) 设计了基于韵律特征的局部强调控制机制;c) 构建了融合全局与局部控制的统一框架。 实验结果:实验表明,EMORL-TTS在情感准确性(目标与感知准确率均达0.88以上)、强度区分度(平均识别率0.71)和强调清晰度(平均准确率0.75)上均显著优于CosyVoice2、Emosphere++等强基线,同时MOS(4.94)和NISQA(4.11)分数与之相当,证明控制能力提升未牺牲合成质量。具体关键数据如下表所示: 表1:情感准确性客观评估(Emotion2vec准确率) ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 274 words

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

📄 EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis #语音合成 #激活引导 #大语言模型 #流匹配 #轻量级 ✅ 7.0/10 | 前50% | #语音合成 | #激活引导 | #大语言模型 #流匹配 学术质量 6.0/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Li Zhou(香港中文大学,深圳分校) 通讯作者:Haizhou Li(香港中文大学,深圳分校) 作者列表:Li Zhou†(香港中文大学,深圳分校)、Hao Jiang†(香港中文大学,深圳分校)、Junjie Li(香港理工大学)、Tianrui Wang(天津大学)、Haizhou Li*(香港中文大学,深圳分校) 💡 毒舌点评 亮点在于用仅10M参数(全微调的1/30)在情感表现力上超越了基线,且证明了通过调节引导系数α可实现情感强度的连续控制,这为参数高效的情感语��合成提供了一个优雅的方案。短板则是其“即插即用”的优势目前仅在一个中等规模、多情感的单语言数据集(ESD)上得到验证,对于更复杂的复合情感、跨语言场景或更大规模的基础模型的适用性有待考察。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用公开的ESD数据集,但未提供获取方式或预处理脚本。 Demo:未提及在线演示。 复现材料:提供了关键方法框架、部分超参数(ε, α, 学习率, 轮数)和实验设置描述,但缺少优化器、batch size、硬件、完整数据处理流程等细节。 论文中引用的开源项目:CosyVoice(骨干模型)、Whisper-Large-v3(ASR评估)、WavLM-Base(SpkSIM计算)、DNSMOS(质量评估)、emotion2vec(情感识别评估)。 总结:论文中未提及开源计划。 📌 核心摘要 这篇论文针对情感语音合成中模型难以直接建模情感特有潜在动态的问题,提出了EmoShift框架。其核心是在基于LLM的TTS模型中引入一个名为EmoSteer的轻量层,该层为每种目标情感学习一个特定的转向向量,用于在输出嵌入空间中捕获相对于中性表达的潜在偏移量。与以往通过缩放固定情感嵌入或依赖外部指导的方法不同,EmoShift直接学习并注入情感特异性的激活偏移,实现了更精确和一致的控制。在ESD数据集上的实验表明,EmoShift以仅10M的可训练参数,在情感分类准确率(如整体从69.68%提升至74.26%)和主观情感评分(Emo-MOS从3.67提升至3.96)上均优于零样本和全参数微调基线。此外,分析显示,通过在推理时调整缩放因子α,可以平滑调节情感强度。该方法的意义在于提供了一种参数高效、可解释且即插即用的情感控制方案。主要局限性在于实验仅在单一英文数据集和有限的五种情感上进行验证。 🏗️ 模型架构 EmoShift的框架如图2所示,其核心是在一个基于LLM的自回归语音合成模型(骨干为CosyVoice-300M-Instruct)中插入了一个EmoSteer层。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 296 words

Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization

📄 Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization #语音合成 #扩散模型 #强化学习 #语音情感识别 🔥 8.0/10 | 前25% | #语音合成 | #扩散模型 #强化学习 | #扩散模型 #强化学习 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未明确说明(论文未明确指定通讯作者,但根据邮箱{jshi12, hdu02, ygao18}@wm.edu 推断,作者可能来自同一实验室) 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Yangfan He(University of Minnesota - Twin Cities)、Y. Alicia Hong(George Mason University)、Ye Gao(College of William & Mary) 💡 毒舌点评 本文最亮眼的地方在于其核心洞察:在扩散模型中,直接将终点偏好传播到中间步骤是“有缺陷的假设”,并为此设计了优雅的“逐步对齐”框架(EASPO),这确实为情感等需要时序精细控制的任务提供了新的思路。然而,其提出的EASPM评分模型重度依赖CLEP在特定情感数据集上的微调,其泛化能力,尤其是在不同说话人、语言和更复杂情感维度上的表现,是最大的潜在短板,且实验仅在英语数据集上验证。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 402 words

Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations #音频大模型 #音频安全 #对抗样本 #语音合成 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #音频大模型 #语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)(注:论文标明三位为共同第一作者) 通讯作者:Hung-yi Lee(台湾大学)(注:论文未明确标注通讯作者,Hung-yi Lee为资深作者,按惯例推断) 作者列表:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)、Chih-Kai Yang(台湾大学)、Szu-Wei Fu(NVIDIA)、Zhehuai Chen(NVIDIA)、Ke-Han Lu(台湾大学)、Sung-Feng Huang(NVIDIA)、Chao-Han Huck Yang(NVIDIA)、Yu-Chiang Frank Wang(NVIDIA)、Yun-Nung Chen(台湾大学)、Hung-yi Lee(台湾大学) 💡 毒舌点评 这篇论文的“问题嗅觉”非常灵敏,精准地抓住了大型音频语言模型在“情绪化表达”这一软肋上的安全漏洞,并用一套严谨的控制变量实验(同一指令、同一说话人、不同情绪与强度)给出了令人信服的实证证据,这是其最大亮点。然而,论文在揭示问题后戛然而止,未能进一步探索漏洞产生的原因(如数据偏差、模型架构缺陷)或提出任何防御/改进方案,使其研究深度略显不足,更像是一个扎实的“安全审计报告”,而非一个完整的“攻防研究”。此外,模型评估的全面性可以进一步加强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文明确提供数据集获取链接:https://huggingface.co/LALM-emotional-vulnerability。 Demo:未提及。 复现材料:论文描述了数据集构建流程和评估指标,但未提供完整的训练细节、配置或检查点。 论文中引用的开源项目:主要依赖AdvBench(文本有害查询)、CREMA-D(情感语音参考)和CosyVoice 2(TTS模型)。 📌 核心摘要 问题:大型音频语言模型(LALMs)的安全对齐在面对说话人情感(副语言信息)变化时,存在尚未被系统研究的脆弱性。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 230 words

Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions

📄 Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions #语音合成 #流匹配 #预训练 #零样本 #语音情感识别 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #预训练 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Kun Zhou(阿里巴巴集团通义实验室,新加坡) 通讯作者:未说明 作者列表:Kun Zhou(阿里巴巴集团通义实验室,新加坡)、You Zhang(美国罗切斯特大学)、Dianwen Ng(阿里巴巴集团通义实验室,新加坡)、Shengkui Zhao(阿里巴巴集团通义实验室,新加坡)、Hao Wang(阿里巴巴集团通义实验室,新加坡)、Bin Ma(阿里巴巴集团通义实验室,新加坡) 💡 毒舌点评 亮点在于将经典心理学理论(PAD模型)与前沿的语言模型TTS框架深度结合,实现了从离散情感标签到连续情感空间控制的优雅跳转,为情感语音合成提供了更富表现力的控制范式。短板是实验部分更像一场“理论验证秀”(如图2展示合成语音的声学特征与理论吻合),但在与当前最强系统(如使用大规模情感数据或更强解码方法的模型)的“硬碰硬”对比和系统性消融实验上显得保守和不足,使得其宣称的优势说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开的ESD和LibriTTS数据集。情感维度预测器的训练数据(ESD子集)是公开的,TTS训练数据(LibriTTS)也是公开的。 Demo:提供了在线演示页面:https://demos46.github.io/emotion_pad/ 复现材料:提供了模型架构描述、关键超参数(如ED预测器的训练设置、TTS模型各组件维度)、数据集规模等信息。但未提供完整的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目:引用了CosyVoice、HiFi-GAN、3D-Speaker(用于说话人嵌入)、WavLM、UMAP等开源模型和工具。 📌 核心摘要 要解决什么问题:当前的情感语音合成(TTS)系统受限于数据集中的少量离散情感标签(如喜怒哀乐),无法覆盖人类丰富(理论上有约34000种)且微妙的情感光谱,导致生成语音的情感表达有限、不自然。 方法核心是什么:本文提出一个基于语言模型的TTS框架,核心是引入情感维度(ED)预测器和连续情感维度控制。ED预测器利用心理学期理论(PAD模型:愉悦度-唤醒度-支配度),将语音数据集中的离散情感标签映射为连续的3维向量。在TTS训练和推理时,将ED向量作为额外条件输入语言模型,从而引导语音合成。 与已有方法相比新在哪里:相比传统基于离散标签的监督学习或基于参考语音的风格迁移方法,本文方法无需在TTS训练阶段使用显式情感标签,仅通过连续的ED向量即可在推理时灵活控制生成语音的情感风格,且能探索训练数据中未出现过的情感组合。 主要实验结果如何:在零样本情感克隆任务上,本文方法的语音自然度MOS(4.54)优于基线CosyVoice(4.36)。在情感可懂度(E-MOS)主观评估中,本方法在所有测试情感上得分均高于CosyVoice基线。XAB测试表明,系统能较好地区分PAD维度相近的情感对(如愤怒vs焦虑,正确匹配率约84%)。客观上,合成语音的音高和频谱通量统计特征与理论预期相符(如图2所示)。 实际意义是什么:该框架使得TTS系统能够更精细、灵活地合成多样化的情感语音,无需依赖大规模标注数据,有望提升对话系统、有声读物、虚拟助手等应用的情感交互自然度和用户体验。 主要局限性是什么:1) 情感维度预测器依赖于已有的离散情感标签数据集进行训练,其质量可能受限于原始标签的噪声和偏差;2) 实验评估中,与最先进的情感TTS系统(如CosyVoice的情感扩展版本EmoCtrl-TTS)的直接对比缺失,且缺乏关键模块的消融研究;3) 当前工作主要在英语单语种上进行验证,多语言适应性未探讨。 🏗️ 模型架构 本论文的框架包含两个主要阶段:情感维度(ED)预测器训练和TTS模型训练/推理。 ...

2026-04-29 · 更新于 2026-06-15 · 1 min · 186 words

Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec

📄 Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec #语音合成 #信号处理 #低资源 #流式处理 ✅ 7.5/10 | 前25% | #语音合成 | #信号处理 | #低资源 #流式处理 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yanzhou Ren(早稻田大学) 通讯作者:未说明 作者列表:Yanzhou Ren(早稻田大学)、Noboru Harada(NTT, Inc., Japan)、Daiki Takeuchi(NTT, Inc., Japan)、Siyu Chen(早稻田大学)、Wei Liu(早稻田大学)、Xiao Zhang(早稻田大学)、Liyuan Zhang(早稻田大学)、Takehiro Moriya(NTT, Inc., Japan)、Shoji Makino(早稻田大学) 💡 毒舌点评 这篇论文就像给一辆已经不错的汽车(Mimi)换了套更智能的轮胎(EG-GRVQ),开起来确实更稳更高效,但发动机和底盘没变。优点是思路自然、实验扎实,将信息论概念(熵/方差)与工程实践(分组量化)结合得很漂亮;缺点是技术突破感不强,更像一次精细的调优,而且没把“改装图纸”(代码)公开出来。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开的LibriTTS和VCTK数据集,论文中说明了数据使用方式。 Demo:未提及。 复现材料:论文中详细描述了模型架构、损失函数、训练策略(数据、硬件、批次大小)和关键超参数,提供了较好的文本复现指南。 论文中引用的开源项目:明确基于Mimi[13]架构进行改进,并参考了SpeechTokenizer[12]的语义蒸馏方法、HiFi-Codec[21]的GRVQ思想,以及WavLM[10]用于语义蒸馏。 开源计划:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:在超低比特率条件下,神经语音编码器如何同时保证高保真的波形重建质量和足够高的语音可懂度(语义信息)。 方法核心是什么:提出熵引导的分组残差矢量量化(EG-GRVQ)。它在保留Mimi模型语义分支的同时,在声学分支中,利用编码器各通道输出的方差(作为信息量的代理)来指导如何将通道分成两个信息量均衡的组,而非传统的均匀分割。 与已有方法相比新在哪里:相较于Mimi原始的RVQ和HiFi-Codec的均匀分组GRVQ,EG-GRVQ的创新点在于“引导分组”的依据。它基于高斯分布假设,认为通道方差与其携带的微分熵正相关,因此通过方差排序和累加来确保分组间的信息负载均衡,旨在提升码本利用效率和减少信息冗余。 主要实验结果如何:在0.6875 kbps的超低比特率下,与多个基线相比,EG-GRVQ在客观指标和主观评价上均取得提升。关键数据如下: 客观评估: 方法 PESQ↑ STOI↑ ViSQOL↑ Mimi (official) 1.872 0.876 2.010 Mimi (retrain) 1.779 0.886 2.546 Mimi (GRVQ) 1.852 0.889 2.464 Proposal (EG-GRVQ) 1.881 0.890 2.496 (表1数据) 码本利用效率:EG-GRVQ在各层码本上保持了更高且更均衡的利用率,而传统RVQ在深层码本利用率急剧下降。 主观评估:MUSHRA测试中,EG-GRVQ比官方Mimi得分高21分,比Mimi (GRVQ)高11分,且提升具有统计显著性(图4,图5)。 实际意义是什么:该方法为低带宽实时语音通信(如VoIP、卫星通信)提供了一种提升音质的可行方案,能在固定比特率预算内更高效地利用量化资源,平衡语义与声学保真度。 主要局限性是什么:1) 分组策略在训练前固定为超参数,未探讨逐帧自适应的可能性(论文中提及但为简化未实施);2) 核心改进局限于声学分支的分组策略,未涉及编解码器整体架构或语义分支的优化;3) 未开源代码和模型,限制了直接复现和快速迭代。 🏗️ 模型架构 模型整体架构(如图1所示)沿用了Mimi的编解码器框架,采用因果、低延迟设计,适用于实时通信。 ...

2026-04-29 · 更新于 2026-06-15 · 1 min · 179 words

Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech

📄 Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech #语音合成 #说话人识别 #流匹配 #音频安全 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #说话人识别 #音频安全 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Myungjin Lee (梨花女子大学 AI与软件学院) 通讯作者:Jiyoung Lee (梨花女子大学 AI与软件学院) 作者列表:Myungjin Lee (梨花女子大学 AI与软件学院), Eunji Shin (梨花女子大学 AI与软件学院), Jiyoung Lee† (梨花女子大学 AI与软件学院) (* 标记为共同第一作者,† 标记为通讯作者) 💡 毒舌点评 这篇论文巧妙地将大语言模型中的“激活转向”思想移植到零样本TTS的安全场景,提供了一种“即插即忘”的优雅解决方案,免去了昂贵的重新训练,这是其最大的工程和实用价值。然而,方法的理论基石略显单薄——其核心假设“身份信息主要编码在FFN层”依赖于一篇同期引用的、尚未完全验证的分析,使得整个转向机制的普适性打上问号;此外,实验仅在F5-TTS上完成,对于其他TTS架构是否同样有效,仍是未知数。 🔗 开源详情 代码:论文提供了代码和演示页面的链接:http://mmai.ewha.ac.kr/trus。是。 模型权重:论文中未提及是否公开F5-TTS的预训练权重或TruS干预后的任何权重(因为TruS无需权重)。 数据集:论文使用了公开数据集(Emilia的英文子集、LibriSpeech、CREMA-D),但未提及TruS评估所用的特定子集(如opt-out说话人列表)的获取方式。 Demo:论文提到“The demo and code are available on http://mmai.ewha.ac.kr/trus”,因此提供在线演示。是。 复现材料:论文给出了部分超参数(如α=1.2, N=30),并进行了相关消融实验,但缺少详细的推理脚本、环境依赖(如F5-TTS的具体版本)、以及构建ID原型的具体操作脚本等复现材料。 论文中引用的开源项目:主要依赖F5-TTS([5])作为基座模型。评估中使用了ECAPA-TDNN([31])计算SIM,Whisper large-V3([32])计算WER,emotion2vec([33])计算SIM-Emo。 📌 核心摘要 要解决的问题:零样本文本到语音(TTS)模型能高度逼真地模仿任意说话人的声音,这带来了严重的隐私和安全风险,可能导致未授权的语音生成。现有应对方案如水印(事后追溯)、语音匿名化(身份替换)和基于训练的遗忘(成本高、无法处理未见说话人)均存在不足。本文旨在提出一种高效、可扩展的“拒绝生成”机制。 方法核心:提出TruS,一个免训练的、在推理时进行干预的说话人遗忘框架。其核心思想是:在TTS模型内部,通过一组已知“保留”说话人的语料构建一个代表“正常”说话人身份的ID原型嵌入。当遇到请求“退出”(opt-out)的未知说话人时,计算其激活与ID原型的差异,得到一个身份特定的转向向量。在生成过程中,动态选择那些身份信号显著的层和时间步,将当前激活在转向向量方向上的投影分量减去,从而抑制该目标身份信息的输出,同时保留语言内容和韵律情感。 与已有方法相比新在哪里: 范式转变:从数据删除(重训练)转向推理时控制。 免训练与即插即用:无需任何重训练或微调,可直接应用于现有TTS模型,极大降低了部署成本和时间。 处理未见说话人:首次在零样本TTS遗忘任务中,能够有效处理训练集中未出现过的、来自外部的opt-out说话人请求,更具现实意义。 动态与自适应:通过动态阈值(基于层间相似度统计)自动选择干预点,比固定规则的转向(如EmoSteer)更精细,避免了对生成质量的过度破坏。 主要实验结果: 在已见opt-out说话人上,TruS(SIM-SO: 0.477)与需要重训练的TGU(SIM-SO: 0.510)相比,在身份抑制上更有效,同时WER(语言保真度)更好(3.25 vs 4.03),且训练时间成本为零。但SGU(SIM-SO: 0.106)抑制更强,但破坏了保留说话人的语音质量(SIM-R大幅下降)。 关键突破在于对未见opt-out说话人(LibriSpeech)的泛化能力:TruS将SIM-UO从基线的0.668显著降低至0.488,Spk-ZRF-UO从0.906提升至0.913,证明其可推广至未知身份。 在情感数据集(CREMA-D)上,TruS在抑制未见说话人身份(SIM-UO: 0.131 vs 0.217)的同时,情感相似度(SIM-Emo)几乎无损(0.723 vs 0.732),表明能较好地保留非身份属性。 消融研究表明,采用“μ+σ”阈值进行层选择能达到身份抑制与语音质量的最佳平衡;ID原型的保留说话人池大小N=30时综合性能最优。 实际意义:为零样本TTS技术提供了一种用户驱动的、细粒度的隐私保护工具,允许个人明确拒绝其声音被合成,且该工具易于集成到现有系统中,为生成式语音AI的负责任部署提供了一种可扩展的技术方案。 主要局限性: 方法严重依赖“说话人身份信息主要编码在FFN层”这一先验假设,该假设的普适性有待验证。 实验验证仅基于F5-TTS(一种基于DiT的流匹配模型)一种架构,其有效性是否能迁移到其他主流的零样本TTS模型(如自回归模型)尚不明确。 对“未见说话人”的处理需要一个“opt-out说话人”的单句参考语音,这要求opt-out用户提供一段自己的录音作为凭证,可能存在额外操作门槛。 🏗️ 模型架构 TruS并非一个独立训练的模型,而是一个插入到预训练TTS模型(如F5-TTS)推理过程中的干预模块。其整体工作流程如图2所示。 图2展示了TruS与TTS模型协同工作的流程: ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 384 words