EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS

📄 EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion Control in LLM-based TTS #语音合成 #强化学习 #语音情感识别 #大语言模型 🔥 8.5/10 | 前25% | #语音合成 | #强化学习 | #语音情感识别 #大语言模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haoxun Li(杭州高等研究院、中国科学院大学) 通讯作者:Taihao Li(杭州高等研究院、中国科学院大学) 作者列表:Haoxun Li(杭州高等研究院、中国科学院大学)、Yu Liu(未说明具体机构)、Yuqing Sun(未说明具体机构)、Hanlei Shi(未说明具体机构)、Leyuan Qu(未说明具体机构)、Taihao Li(杭州高等研究院、中国科学院大学) 💡 毒舌点评 亮点:本文创新性地将强化学习(GRPO)引入LLM-TTS,为解决其“离散Token难以表达连续情感”的痛点提供了优雅的框架,并首次实现了同时控制VAD全局强度和局部词强调,实验数据全面且显著优于基线。 短板:论文声称是“本地PDF”,但缺乏对代码和模型权重公开的明确承诺,严重阻碍了社区的复现与跟进;另外,对“惊讶”等少数情感的强调控制效果较弱,表明模型的泛化能力仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。仅提供了一个Demo页面(https://wd-233.github.io/EMORL-TTS_DEMO/)。 模型权重:未提及是否公开模型权重。 数据集:使用的ESD和Expresso是公开数据集,但GRPO阶段构建的1000句带强调标注的文本语料未公开。 Demo:提供了在线合成演示页面。 复现材料:论文详细描述了两阶段训练流程、损失函数、奖励设计公式和主要超参数,这为复现提供了较好的理论指导。但缺乏训练脚本、具体配置文件和模型检查点。 论文中引用的开源项目/工具:依赖的基座模型 Spark-TTS,情感识别模型 Emotion2vec,强制对齐工具 NeMo Forced Aligner,以及VAD预测器均为开源或已有工作。 📌 核心摘要 问题:基于大语言模型的语音合成系统虽能实现高质量零样本合成,但由于其依赖离散语音Token,难以实现对情感的细粒度控制(如连续强度、重点词强调)。 方法核心:提出EMORL-TTS框架,通过监督微调(SFT)与强化学习(GRPO)相结合的方式,统一建模全局情感强度(在VAD空间)与局部语音强调(通过音高和能量特征)。强化学习阶段使用三个任务特定奖励:情感分类准确性、全局VAD强度匹配度和局部强调清晰度。 创新点:a) 首次将VAD空间的全局情感强度控制引入LLM-TTS;b) 设计了基于韵律特征的局部强调控制机制;c) 构建了融合全局与局部控制的统一框架。 实验结果:实验表明,EMORL-TTS在情感准确性(目标与感知准确率均达0.88以上)、强度区分度(平均识别率0.71)和强调清晰度(平均准确率0.75)上均显著优于CosyVoice2、Emosphere++等强基线,同时MOS(4.94)和NISQA(4.11)分数与之相当,证明控制能力提升未牺牲合成质量。具体关键数据如下表所示: 表1:情感准确性客观评估(Emotion2vec准确率) ...

2026-04-29

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

📄 EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis #语音合成 #激活引导 #大语言模型 #流匹配 #轻量级 ✅ 7.0/10 | 前50% | #语音合成 | #激活引导 | #大语言模型 #流匹配 学术质量 6.0/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Li Zhou(香港中文大学,深圳分校) 通讯作者:Haizhou Li(香港中文大学,深圳分校) 作者列表:Li Zhou†(香港中文大学,深圳分校)、Hao Jiang†(香港中文大学,深圳分校)、Junjie Li(香港理工大学)、Tianrui Wang(天津大学)、Haizhou Li*(香港中文大学,深圳分校) 💡 毒舌点评 亮点在于用仅10M参数(全微调的1/30)在情感表现力上超越了基线,且证明了通过调节引导系数α可实现情感强度的连续控制,这为参数高效的情感语��合成提供了一个优雅的方案。短板则是其“即插即用”的优势目前仅在一个中等规模、多情感的单语言数据集(ESD)上得到验证,对于更复杂的复合情感、跨语言场景或更大规模的基础模型的适用性有待考察。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用公开的ESD数据集,但未提供获取方式或预处理脚本。 Demo:未提及在线演示。 复现材料:提供了关键方法框架、部分超参数(ε, α, 学习率, 轮数)和实验设置描述,但缺少优化器、batch size、硬件、完整数据处理流程等细节。 论文中引用的开源项目:CosyVoice(骨干模型)、Whisper-Large-v3(ASR评估)、WavLM-Base(SpkSIM计算)、DNSMOS(质量评估)、emotion2vec(情感识别评估)。 总结:论文中未提及开源计划。 📌 核心摘要 这篇论文针对情感语音合成中模型难以直接建模情感特有潜在动态的问题,提出了EmoShift框架。其核心是在基于LLM的TTS模型中引入一个名为EmoSteer的轻量层,该层为每种目标情感学习一个特定的转向向量,用于在输出嵌入空间中捕获相对于中性表达的潜在偏移量。与以往通过缩放固定情感嵌入或依赖外部指导的方法不同,EmoShift直接学习并注入情感特异性的激活偏移,实现了更精确和一致的控制。在ESD数据集上的实验表明,EmoShift以仅10M的可训练参数,在情感分类准确率(如整体从69.68%提升至74.26%)和主观情感评分(Emo-MOS从3.67提升至3.96)上均优于零样本和全参数微调基线。此外,分析显示,通过在推理时调整缩放因子α,可以平滑调节情感强度。该方法的意义在于提供了一种参数高效、可解释且即插即用的情感控制方案。主要局限性在于实验仅在单一英文数据集和有限的五种情感上进行验证。 🏗️ 模型架构 EmoShift的框架如图2所示,其核心是在一个基于LLM的自回归语音合成模型(骨干为CosyVoice-300M-Instruct)中插入了一个EmoSteer层。 ...

2026-04-29

Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization

📄 Emotion-Aligned Generation in Diffusion Text to Speech Models Via Preference-Guided Optimization #语音合成 #扩散模型 #强化学习 #语音情感识别 🔥 8.0/10 | 前25% | #语音合成 | #扩散模型 #强化学习 | #扩散模型 #强化学习 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未明确说明(论文未明确指定通讯作者,但根据邮箱{jshi12, hdu02, ygao18}@wm.edu 推断,作者可能来自同一实验室) 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Yangfan He(University of Minnesota - Twin Cities)、Y. Alicia Hong(George Mason University)、Ye Gao(College of William & Mary) 💡 毒舌点评 本文最亮眼的地方在于其核心洞察:在扩散模型中,直接将终点偏好传播到中间步骤是“有缺陷的假设”,并为此设计了优雅的“逐步对齐”框架(EASPO),这确实为情感等需要时序精细控制的任务提供了新的思路。然而,其提出的EASPM评分模型重度依赖CLEP在特定情感数据集上的微调,其泛化能力,尤其是在不同说话人、语言和更复杂情感维度上的表现,是最大的潜在短板,且实验仅在英语数据集上验证。 ...

2026-04-29

Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations #音频大模型 #音频安全 #对抗样本 #语音合成 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #音频大模型 #语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)(注:论文标明三位为共同第一作者) 通讯作者:Hung-yi Lee(台湾大学)(注:论文未明确标注通讯作者,Hung-yi Lee为资深作者,按惯例推断) 作者列表:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)、Chih-Kai Yang(台湾大学)、Szu-Wei Fu(NVIDIA)、Zhehuai Chen(NVIDIA)、Ke-Han Lu(台湾大学)、Sung-Feng Huang(NVIDIA)、Chao-Han Huck Yang(NVIDIA)、Yu-Chiang Frank Wang(NVIDIA)、Yun-Nung Chen(台湾大学)、Hung-yi Lee(台湾大学) 💡 毒舌点评 这篇论文的“问题嗅觉”非常灵敏,精准地抓住了大型音频语言模型在“情绪化表达”这一软肋上的安全漏洞,并用一套严谨的控制变量实验(同一指令、同一说话人、不同情绪与强度)给出了令人信服的实证证据,这是其最大亮点。然而,论文在揭示问题后戛然而止,未能进一步探索漏洞产生的原因(如数据偏差、模型架构缺陷)或提出任何防御/改进方案,使其研究深度略显不足,更像是一个扎实的“安全审计报告”,而非一个完整的“攻防研究”。此外,模型评估的全面性可以进一步加强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文明确提供数据集获取链接:https://huggingface.co/LALM-emotional-vulnerability。 Demo:未提及。 复现材料:论文描述了数据集构建流程和评估指标,但未提供完整的训练细节、配置或检查点。 论文中引用的开源项目:主要依赖AdvBench(文本有害查询)、CREMA-D(情感语音参考)和CosyVoice 2(TTS模型)。 📌 核心摘要 问题:大型音频语言模型(LALMs)的安全对齐在面对说话人情感(副语言信息)变化时,存在尚未被系统研究的脆弱性。 ...

2026-04-29

Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions

📄 Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions #语音合成 #流匹配 #预训练 #零样本 #语音情感识别 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #预训练 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Kun Zhou(阿里巴巴集团通义实验室,新加坡) 通讯作者:未说明 作者列表:Kun Zhou(阿里巴巴集团通义实验室,新加坡)、You Zhang(美国罗切斯特大学)、Dianwen Ng(阿里巴巴集团通义实验室,新加坡)、Shengkui Zhao(阿里巴巴集团通义实验室,新加坡)、Hao Wang(阿里巴巴集团通义实验室,新加坡)、Bin Ma(阿里巴巴集团通义实验室,新加坡) 💡 毒舌点评 亮点在于将经典心理学理论(PAD模型)与前沿的语言模型TTS框架深度结合,实现了从离散情感标签到连续情感空间控制的优雅跳转,为情感语音合成提供了更富表现力的控制范式。短板是实验部分更像一场“理论验证秀”(如图2展示合成语音的声学特征与理论吻合),但在与当前最强系统(如使用大规模情感数据或更强解码方法的模型)的“硬碰硬”对比和系统性消融实验上显得保守和不足,使得其宣称的优势说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开的ESD和LibriTTS数据集。情感维度预测器的训练数据(ESD子集)是公开的,TTS训练数据(LibriTTS)也是公开的。 Demo:提供了在线演示页面:https://demos46.github.io/emotion_pad/ 复现材料:提供了模型架构描述、关键超参数(如ED预测器的训练设置、TTS模型各组件维度)、数据集规模等信息。但未提供完整的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目:引用了CosyVoice、HiFi-GAN、3D-Speaker(用于说话人嵌入)、WavLM、UMAP等开源模型和工具。 📌 核心摘要 要解决什么问题:当前的情感语音合成(TTS)系统受限于数据集中的少量离散情感标签(如喜怒哀乐),无法覆盖人类丰富(理论上有约34000种)且微妙的情感光谱,导致生成语音的情感表达有限、不自然。 方法核心是什么:本文提出一个基于语言模型的TTS框架,核心是引入情感维度(ED)预测器和连续情感维度控制。ED预测器利用心理学期理论(PAD模型:愉悦度-唤醒度-支配度),将语音数据集中的离散情感标签映射为连续的3维向量。在TTS训练和推理时,将ED向量作为额外条件输入语言模型,从而引导语音合成。 与已有方法相比新在哪里:相比传统基于离散标签的监督学习或基于参考语音的风格迁移方法,本文方法无需在TTS训练阶段使用显式情感标签,仅通过连续的ED向量即可在推理时灵活控制生成语音的情感风格,且能探索训练数据中未出现过的情感组合。 主要实验结果如何:在零样本情感克隆任务上,本文方法的语音自然度MOS(4.54)优于基线CosyVoice(4.36)。在情感可懂度(E-MOS)主观评估中,本方法在所有测试情感上得分均高于CosyVoice基线。XAB测试表明,系统能较好地区分PAD维度相近的情感对(如愤怒vs焦虑,正确匹配率约84%)。客观上,合成语音的音高和频谱通量统计特征与理论预期相符(如图2所示)。 实际意义是什么:该框架使得TTS系统能够更精细、灵活地合成多样化的情感语音,无需依赖大规模标注数据,有望提升对话系统、有声读物、虚拟助手等应用的情感交互自然度和用户体验。 主要局限性是什么:1) 情感维度预测器依赖于已有的离散情感标签数据集进行训练,其质量可能受限于原始标签的噪声和偏差;2) 实验评估中,与最先进的情感TTS系统(如CosyVoice的情感扩展版本EmoCtrl-TTS)的直接对比缺失,且缺乏关键模块的消融研究;3) 当前工作主要在英语单语种上进行验证,多语言适应性未探讨。 🏗️ 模型架构 本论文的框架包含两个主要阶段:情感维度(ED)预测器训练和TTS模型训练/推理。 ...

2026-04-29

EmoTri-RL: Emotion- and Cause-Aware Reinforcement Learning for Multi-Modal Empathetic Dialogue

📄 EmoTri-RL: Emotion- and Cause-Aware Reinforcement Learning for Multi-Modal Empathetic Dialogue #语音情感识别 #强化学习 #多模态模型 #生成模型 #多任务学习 ✅ 7.0/10 | 前25% | #语音情感识别 | #强化学习 | #多模态模型 #生成模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhongtian Hu(Northwestern Polytechnical University) 通讯作者:Changhong Jiang(Northwestern Polytechnical University, Email: chjiang@nwpu.edu.cn) 作者列表:Zhongtian Hu(Northwestern Polytechnical University)、Changhong Jiang*(Northwestern Polytechnical University)、Mingting Yu(未说明)、Wei Zhang(未说明)、Jiashi Lin(未说明) 💡 毒舌点评 本文的亮点在于系统性地将共情对话生成分解为三个明确任务(生成、情感识别、情感原因识别)并通过多模态融合与强化学习统一解决,这种“解耦再融合”的框架设计清晰且具有启发性。然而,论文的短板也相当明显:开源信息完全缺失,且消融实验虽多,但未提供人工评估的消融结果,使得“每个组件都必要”的结论在用户最终关心的“共情质量”上证据稍显单薄。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的模型权重。 数据集:论文使用了IEMOCAP和MELD公共数据集,并提及按照REC-CON协议扩展了情感原因标注,但未提供扩展后的数据集或获取方式。 Demo:未提及在线演示。 复现材料:给出了PPO阶段的学习率、裁剪范围等部分超参数,但缺少监督预热阶段的完整配置、优化器、batch size、训练硬件与总时长、最终模型检查点等信息。 论文中引用的开源项目:引用了并可能使用了以下预训练模型:BART (文本编码/解码), Wave2Vec 2.0 (语音编码), ViT (视觉编码), OpenFace (用于提取视觉特征), BERT (用于计算奖励中的语义保真度)。 📌 核心摘要 要解决什么问题:现有的共情对话生成系统主要依赖文本,忽略了语音、视觉等模态的情感线索(问题一);忽视了情感产生的原因,导致生成回复缺乏可解释性(问题二);以及普遍采用最大似然估计训练,其优化目标与共情所需的主观、微妙质量不匹配(问题三)。 方法核心是什么:本文提出了EmoTri-RL框架,一个“三模态三任务”的强化学习模型。它首先利用预训练模型提取文本、语音、视觉特征并进行融合,然后在一个统一的解码器中联合执行响应生成、情感识别和情感原因识别三个任务,最后采用带有包含语义保真度、情感对齐和原因一致性三项奖励信号的近端策略优化进行训练。 与已有方法相比新在哪里:与大多数仅使用文本或简单融合多模态信息的方法相比,其新意在于:a) 引入情感原因识别任务作为显式监督,为生成的共情回复提供可解释的因果依据;b) 设计了多信号强化学习奖励,直接优化共情相关的多个维度,而非仅模仿参考文本。 主要实验结果如何:在IEMOCAP和MELD数据集上,EmoTri-RL在几乎所有自动评估指标上均优于强基线。在IEMOCAP数据集上,与最强基线(IAMM)相比,困惑度(PPL)从38.40降至29.90(提升约22.1%), Dist-2从5.09飙升至11.50(提升125.7%),情感识别准确率从69.72%提升至72.80%,BERTScore从81.69提升至85.10。人工评估和LLM评估(GPT-4o)显示,在共情、连贯性、流畅性方面,本模型对CASE和IAMM的胜率均超过65%。消融实验表明,移除强化学习或多模态输入会导致性能显著下降。 实际意义是什么:该工作为构建更可信、更具可解释性的情感支持对话系统(如心理健康咨询、教育辅导)提供了一个有效的技术框架,其核心思路(融合原因识别与多模态强化学习)可推广至其他需要高度情境理解和情感智能的交互场景。 主要局限性是什么:论文的局限性包括:a) 实验仅在英文数据集(IEMOCAP, MELD)上进行,其在多语言环境下的泛化能力未知;b) 所提框架依赖大量标注数据(情感标签和原因跨度标注),数据获取成本高;c) 论文未提供代码或模型,复现门槛较高。 🏗️ 模型架构 图1 阐述了本工作的核心动机:仅用文本模态(Text-only Modality)可能误判情感(如将悲伤误解为感激);即使加入多模态线索(MultiModal),若不进行情感原因推理,生成的回复仍可能肤浅。本文的EmoTri-RL旨在通过多模态融合与原因感知来生成高质量、可解释的共情回复。 ...

2026-04-29

Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness

📄 Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness #音频分类 #生物声学 #对比学习 #数据增强 #多模态模型 ✅ 7.0/10 | 前25% | #音频分类 | #对比学习 | #生物声学 #数据增强 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Heejoon Koo(伦敦大学学院,RSC LAB) 通讯作者:June-Woo Kim(RSC LAB,光州科学技术院) 作者列表:Heejoon Koo(伦敦大学学院,RSC LAB)、Miika Toikkanen(RSC LAB)、Yoon Tae Kim(RSC LAB,韩国科学技术院)、Soo Yong Kim(RSC LAB)、June-Woo Kim†(RSC LAB,光州科学技术院) 💡 毒舌点评 本文的亮点在于构建了一个系统性较强的去偏框架,将因果推理中的反事实估计与公平学习领域的对抗去偏相结合,并针对医疗数据特点设计了具体的元数据增强策略,逻辑自洽。短板是创新性主要体现在技术组合与特定领域适配上,且实验部分的广度有限,仅在一个主任务(呼吸音分类)和两个数据集上验证,缺乏对更通用音频任务或更复杂偏见场景的探讨。 🔗 开源详情 详�� 代码:是,提供代码仓库链接:https://github.com/RSC-Toolkit/BTS-CARD。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:ICBHI和SPRSound均为公开数据集,论文中给出了具体引用和获取信息。 Demo:论文中未提及提供在线演示。 复现材料:论文中提供了详细的训练数据集描述、预处理步骤、训练超参数、损失函数配置以及评估协议,复现信息较为充分。 论文中引用的开源项目/模型:RUBi用于融合,Clinical TinyBERT用于元数据文本编码,Audio-CLAP/BTS作为基础模型,AdamW优化器。 📌 核心摘要 要解决的问题:多模态呼吸音分类模型易受患者元数据(如年龄、性别、采集设备)产生的虚假关联(伪相关)影响,导致在不同临床环境(分布外数据)下泛化性能显著下降。 方法核心:提出BTS-CARD框架,通过三重机制缓解偏见:1)基于因果图的反事实去偏,通过估计并减去自然直接效应(NDE)来抑制元数据对预测的直接虚假影响;2)对抗去偏,在NDE路径上引入梯度反转层,学习对位置和设备不敏感的特征表示;3)反事实元数据增强,在训练中用中性占位符替换敏感元数据,模拟干预以打破虚假依赖。 与已有方法相比新在哪里:首次将反事实推理与对抗去偏相结合用于多模态呼吸音分类。不同于简单地删除或掩码元数据,本文通过精心设计的反事实估计和对抗学习,旨在保留元数据中可能包含的有益间接信息,同时抑制其直接带来的偏见。 主要实验结果:在ICBHI(分布内)和SPRSound(分布外)数据集上,BTS-CARD在ICBHI Score(敏感性与特异性均值)指标上均优于强基线(如BTS)。具体而言,在分布外设置下,本文方法取得了61.96%的分数,显著高于BTS的53.42%。消融实验表明,三个组件对性能均有贡献,其中去除反事实元数据增强对分布外性能影响最大。参数分析显示,推理时去除直接效应(α=0)反而能获得最佳分布外性能。 实际意义:该方法提升了呼吸音分类模型在不同医院、不同设备间的泛化能力和鲁棒性,对于推动临床AI系统的实际部署具有积极意义。 主要局限性:研究的泛用性有待验证,仅在单一任务和特定数据集组合上进行评估。对抗去偏主要针对采集位置和设备,对年龄、性别等其他敏感属性的去偏效果在实验中未显示出优势,其普适性值得商榷。 🏗️ 模型架构 BTS-CARD框架建立在BTS(Bridging Text and Sound)多模态模型基础上,旨在对BTS预测进行反事实去偏。整体流程如下: ...

2026-04-29

Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers

📄 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers #生物声学 #知识蒸馏 #时频分析 #边缘计算 #数据集 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Stefano Ciapponi(Fondazione Bruno Kessler, University of Trento) 通讯作者:未说明 作者列表:Stefano Ciapponi(Fondazione Bruno Kessler, University of Trento),Leonardo Mannini(Fondazione Bruno Kessler),Jarek Scanferla(Eurac Research),Matteo Anderle(Eurac Research),Elisabetta Farella(Fondazione Bruno Kessler, University of Trento) 💡 毒舌点评 亮点:论文首次在AudioMoth这类极低功耗微控制器上实现了多物种鸟类分类,将理论创新(半可学习滤波器组)与严格的硬件约束验证(77mJ/推理)紧密结合,工程实用性很强。短板:70种鸟类的全景分类准确率(70.1%)与BirdNET在特定子集上的表现相比仍有差距,对于生物声学实际应用而言,高难度物种的识别鲁棒性可能是更关键的瓶颈。 🔗 开源详情 代码:论文提供了公开代码仓库链接:https://github.com/wren-framework/wrennet,包含数据集创建、训练、蒸馏和模型导出脚本。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文中未明确说明该70种鸟类数据集是否公开,但提及了音频来源(Xeno-Canto)和预处理方法,部分数据可能需要根据方法自行构建。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的训练配置、损失函数权重、优化器设置、数据增强方法以及模型架构参数,复现信息较为充分。 论文中引用的开源项目:引用了AudioMoth(硬件平台)、BirdNET(教师模型)、ESC-50(环境声数据集)、CMSIS-NN(推理库)等开源项目或标准工具。 📌 核心摘要 这篇论文旨在解决在资源极度受限的低功耗边缘设备(如AudioMoth,内存≤1MB)上实现连续、实时的多物种鸟类声音分类的难题。其核心方法是提出了WrenNet神经网络架构,该架构采用流式兼容的因果卷积和GRU进行高效时序建模,并创新性地设计了一种半可学习(Semi-learnable)频谱特征提取器,通过可微的参数化频率映射自适应优化鸟类叫声的频谱分辨率。与固定梅尔尺度的特征提取相比,该设计能自动学习适合不同物种的频率过渡点。在由鸟类学家策划的70种阿尔卑斯鸟类数据集上,WrenNet对声学特征明显的物种准确率达90.8%,全任务准确率为70.1%。在AudioMoth设备上部署时,单次3秒推理仅消耗77mJ,比BirdNET在树莓派上运行能效高出16倍以上。这标志着首个在微控制器硬件上实现多物种鸟类分类的实用框架。主要局限性在于对声学相似的复杂物种组(如莺类、雀类)识别准确率(约77%)仍有提升空间。 ...

2026-04-29

Encoding Emotion Through Self-Supervised Eye Movement Reconstruction

📄 Encoding Emotion Through Self-Supervised Eye Movement Reconstruction #语音情感识别 #自监督学习 #眼动分析 #情感计算 ✅ 7.5/10 | 前25% | #语音情感识别 | #自监督学习 | #眼动分析 #情感计算 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Marcus Ma(南加州大学) 通讯作者:未说明 作者列表:Marcus Ma(南加州大学),Jordan Prescott(南加州大学),Emily Zhou(南加州大学),Tiantian Feng(南加州大学),Kleanthis Avramidis(南加州大学),Gabor Mihaly Toth(卢森堡大学),Shrikanth Narayanan(南加州大学) 💡 毒舌点评 这篇论文巧妙地将NLP领域的自监督预训练思路移植到眼动序列分析上,成功证明了即使是低分辨率视频中“不完美”的眼动数据也蕴含着丰富的情感信息,这种“化腐朽为神奇”的特征挖掘能力是其最大亮点。然而,其情感“真值”标签严重依赖于另一个语音情感识别模型的输出,相当于用一个“黑盒”去标注数据来训练另一个模型,这种“以模型训模型”的范式在引入系统性偏差方面存在潜在风险,让最终结论的纯粹性打了个问号。 🔗 开源详情 代码:论文提供了代码仓库链接:github.com/mamarcus64/GLASS。 模型权重:论文中未提及公开发布预训练或微调后的模型权重。 数据集:核心数据集(USC Shoah Foundation视觉历史档案)为私有数据集,论文中描述了数据获取和处理的途径,但未提供公开下载或获取方式。 Demo:论文中未提及提供在线演示。 复现材料:论文详细描述了模型架构(Transformer编码器-解码器)、训练策略(计划采样、Huber损失、AdamW优化器、余弦退火学习率)以及关键超参数(默认输入/输出5秒、模型尺寸分类),并提供了训练的总计算量(~200 petaFLOPs)和时长(~6小时 on A40),复现材料较为充分。 论文中引用的开源项目:OpenFace 2.0(用于眼动提取),Whisper和WavLM(用于生成VAD标签),RoPE(旋转位置编码)。 📌 核心摘要 要解决什么问题:传统眼动情感识别依赖于昂贵、受限于实验室环境的高精度眼动仪。本文旨在探索能否从自然场景下、低成本的低分辨率视频(30 FPS,320p)中提取眼动信息,并有效预测情感。 方法核心是什么:提出了一种名为GLASS的自监督学习框架。首先,利用海量无标签眼动序列数据,通过编码器-解码器Transformer模型,以自回归方式预训练“预测未来眼动”的任务。然后,冻结或微调预训练好的编码器,接上不同的时间建模头(MLP、TCN、GRU、Transformer),在有标签的小规模数据上进行下游情感预测任务的微调。 与已有方法相比新在哪里:a) 范式创新:首次将针对语言的自监督预训练思想应用于原始眼动序列的特征学习。b) 数据利用创新:有效利用了大量易于获取但质量较低的视频数据进行预训练,摆脱了对高质量标注眼动数据的依赖。c) 模型设计:通过修改预训练任务的目标(预测未来2秒、5秒、10秒眼动),发现预测时间越长,编码的情感信号越强。 主要实验结果如何:在两个下游任务上,GLASS均优于统计特征和CNN基线。实验一(VAD回归):在5秒输入下,GLASS(预测10秒)取得最优的皮尔逊相关系数r=0.294±0.03。实验二(行为分类:哭、笑、叹气):在5秒输入下,GLASS(预测5秒)取得最优的宏F1分数0.361±0.02。消融实验表明,预训练时的眼动预测性能与下游情感任务性能呈正相关。 实际意义是什么:证明了低质量、自然状态下的视频眼动数据可作为可靠的情感预测源,为情感计算走向大规模、低成本、非侵入式的真实世界应用提供了新的技术路径。 主要局限性是什么:a) 标签噪声:实验一的情感VAD标签并非人工标注,而是由基于语音的ASR+情感模型生成,其准确性直接影响模型训练上限。b) 场景特定性:研究数据集为大屠杀幸存者访谈,情感强烈且单一,模型在更普遍、平淡的日常情感场景中的泛化能力未知。c) 数据私有:使用的核心数据集非公开,限制了完全复现与直接比较。 🏗️ 模型架构 论文的核心模型GLASS采用经典的两阶段“预训练-微调”范式,其整体架构如图2所示。 ...

2026-04-29

Enhanced Generative Machine Listener

📄 Enhanced Generative Machine Listener #音频分类 #生成模型 #深度学习 #音频编码 ✅ 7.0/10 | 前25% | #音频分类 | #生成模型 | #深度学习 #音频编码 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Vishnu Raj(Dolby Laboratories)、Gouthaman KV(Dolby Laboratories)、Shiv Gehlot(Dolby Laboratories)、Lars Villemoes(Dolby Laboratories)、Arijit Biswas(Dolby Laboratories) 💡 毒舌点评 亮点:论文将主观听测分数建模问题,从传统的单点预测提升到对分数概率分布(Beta分布)的建模,这一理论视角的升级更为本质,能自然处理分数的边界和偏态分布。短板:实验虽全面,但核心创新是改进损失函数(Beta loss)和数据扩展,缺乏对模型架构本身(如Inception块)的深入剖析或创新,且置信区间的预测价值未被定量验证,略显“画饼”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:论文中提到了使用的训练集和测试集来源(如ODAQ),但未说明是否公开或如何获取其扩展的完整训练数据集。 Demo:未提供在线演示。 复现材料:论文提供了较为详细的训练配置(GPU型号、batch size、优化器、学习率、训练步数、语谱图参数),但缺少网络具体架构配置、完整的预处理脚本和检查点信息。 论文中引用的开源项目:引用了多个公开的神经音频编解码器模型(如Encodec, Descript Audio Codec, MDCTNet),这些可能作为测试数据的一部分。也提到了PEAQ和ViSQOL的开源实现。 📌 核心摘要 问题:自动化的客观音频质量评估模型通常输出单一分数,无法捕捉主观评价中的内在不确定性和变异性,尤其是在边界或歧义情况下。 核心方法:提出GMLv2,一个基于Beta分布的生成式模型。它通过神经网络预测Beta分布的形状参数(α, β),从而联合估计期望的MUSHRA分数(分布均值)和不确定性(分布方差/形状)。 创新点:相较于使用高斯/逻辑斯蒂分布的GMLv1,Beta分布天然定义在[0,1]区间,完美匹配归一化的MUSHRA分数,无需后处理修正,且其灵活的形状能更好地拟合有偏或双峰的听众评分分布。 主要实验结果:在8个涵盖传统编解码器(AAC, Dolby AC-4等)和神经编解码器(Encodec, DAC等)的测试集上,GMLv2在皮尔逊相关性(Rp)、斯皮尔曼相关性(Rs)和离群点率(OR)上均显著优于PEAQ、ViSQOL-v3和重新训练后的GMLv1(见下表)。聚合Rp/Rs达到0.9526/0.9205,OR降至0.0964。 表1:主要实验结果对比 评测集 PEAQ (Rp/Rs) ViSQOL (Rp/Rs) GMLv1* (Rp/Rs/OR) GMLv2 (Rp/Rs/OR) USAC-1 0.47/0.40 0.81/0.84 0.91/0.90/0.045 0.92/0.90/0.045 USAC-2 0.42/0.20 0.77/0.78 0.89/0.84/0.067 0.93/0.89/0.067 USAC-3 0.56/0.62 0.82/0.90 0.92/0.92/0.046 0.94/0.93/0.046 Binaural 1 0.75/0.79 0.90/0.93 0.95/0.93/0.182 0.98/0.94/0.182 Binaural 2 0.42/0.56 0.96/0.85 0.98/0.91/0.012 0.99/0.91/0.012 NAC Mono 0.34/0.31 0.89/0.86 0.92/0.94/0.833 0.97/0.94/0.071 NAC Stereo 0.58/0.40 0.82/0.89 0.93/0.90/0.589 0.95/0.93/0.078 ODAQ 0.71/0.65 0.70/0.80 0.81/0.81/0.817 0.83/0.83/0.271 聚合 0.56/0.52 0.85/0.86 0.93/0.90/0.725 0.95/0.92/0.096 实际意义:为音频编码(特别是神经编解码器)的研发提供了一个更可靠、可解释的自动化质量评估工具,能够量化预测的不确定性,加速评估迭代。 主要局限性:(1) 论文中未提供模型权重和代码开源计划,复现依赖外部资源;(2) 虽然模型预测了分布参数,但文中明确指出“置信区间的定量评估留待未来工作”;(3) 模型架构主体沿用前作的Inception块,创新主要集中在损失函数和训练数据扩展。 🏗️ 模型架构 GMLv2是一个参考型深度学习模型,其输入为参考音频(x)和待测音频(˜x)的信号对,输出为预测的MUSHRA分数均值及其对应的Beta分布参数(α, β)。 ...

2026-04-29