Improving Active Learning for Melody Estimation by Disentangling Uncertainties

📄 Improving Active Learning for Melody Estimation by Disentangling Uncertainties #音乐信息检索 #不确定性估计 #迁移学习 #少样本 ✅ 7.5/10 | 前25% | #音乐信息检索 | #不确定性估计 | #迁移学习 #少样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文标注“∗Equal contribution”,三位作者贡献相等) 通讯作者:未说明 作者列表:Aayush Jaiswal(印度理工学院坎普尔分校)、Parampreet Singh(印度理工学院坎普尔分校)、Vipul Arora(印度理工学院坎普尔分校) 💡 毒舌点评 亮点: 方法框架清晰,将证据深度学习(Evidential Deep Learning)这一不确定性解耦工具系统性地引入旋律估计任务,并通过详实的消融实验证明了回归设置下“认知不确定性”对主动学习的指导价值显著优于“随机不确定性”,为资源受限的跨域适应提供了有效方案。 短板: 实验规模偏小,仅在三个数据量不大的目标数据集上验证,缺乏在更大规模、更多样化基准(如MIR-1K之外的源域)上的测试,结论的普适性和说服力有待加强;此外,与最新最强的旋律估计SOTA模型(而非基础ResNet)的对比缺失,难以判断其在绝对性能上的竞争力。 📌 核心摘要 这篇论文旨在解决旋律估计任务中,主动学习样本选择策略未能有效利用不同不确定性信息的问题。方法核心是采用证据深度学习(Evidential Deep Learning)框架,分别训练分类(M1)和回归(M2)两种模型,以解耦并独立输出估计音高的“随机不确定性”(Aleatoric Uncertainty,源于数据歧义)和“认知不确定性”(Epistemic Uncertainty,源于模型认知不足)。与已有使用聚合不确定性(如β-NLL)或未解耦不确定性(如TCP置信度)的方法相比,本文的新颖之处在于系统地研究了这两种不确定性在跨域主动学习中的相对效果。主要实验结果表明,在HAR数据集上的域适应任务中,基于认知不确定性的回归模型(M2 (E))仅使用200个标注样本进行微调,整体准确率(OA)就能达到96.0%,显著优于使用随机不确定性(M2 (A))的69.2%和其他基线方法(见论文图1及描述)。该工作的实际意义在于,能以极少的标注代价将模型从源域(如MIR-1K中文卡拉OK)高效迁移到新域(如印度古典音乐),降低了标注门槛。其主要局限性是实验验证的数据集规模较小且数量有限,可能限制了结论的普遍性;此外,论文未将所提方法与旋律估计领域已知的最先进(SOTA)模型进行直接对比。 🏗️ 模型架构 模型整体架构是一个基于ResNet的端到端系统,核心流程是:输入音频 → 预处理为梅尔频谱图 → ResNet特征提取 → 分类头(判断有声/无声)+ 不确定性输出头(预测音高及不确定性)。 ...

2026-04-29

InconVAD: A Two-Stage Dual-Tower Framework for Multimodal Emotion Inconsistency Detection

📄 InconVAD: A Two-Stage Dual-Tower Framework for Multimodal Emotion Inconsistency Detection #语音情感识别 #多模态模型 #不确定性估计 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #不确定性估计 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zongyi Li(南洋理工大学,跨学科研究生项目) 通讯作者:未说明 作者列表:Zongyi Li(南洋理工大学,跨学科研究生项目),Junchuan Zhao(新加坡国立大学,计算学院),Francis Bu Sung Lee(南洋理工大学,计算与数据科学学院),Andrew Zi Han Yee(南洋理工大学,Wee Kim Wee传播与信息学院) 💡 毒舌点评 亮点在于其“显式不一致性检测+选择性融合”的第二阶段设计非常精巧,直指当前多模态融合“无脑拼接”的痛点,并在实验上证明了其有效性。短板则是为了构建不一致样本,依赖了EmoV-DB数据集的人工语音-文本配对,这种合成数据构造的不一致性能否完全代表真实世界(如自然对话中的复杂讽刺、掩饰)中的不一致性,需要打一个问号。 📌 核心摘要 问题:多模态情感分析中,语音与文本信号常包含不一致的情感线索(如讽刺),现有方法依赖不完整的情感表示(如离散标签)且默认模态一致进行无条件融合,导致性能下降。 方法核心:提出InconVAD,一个两阶段双塔框架。第一阶段(Phase A)训练两个独立的、具备不确定性感知的单模态塔(语音塔、文本塔),在共享的三维情感空间(VAD:效价-唤醒-支配)中预测情感值。第二阶段(Phase B)首先用一个分类器显式检测输入语音-文本对的情感不一致性,然后仅对被判定为“一致”的配对,通过一个门控Transformer融合模块整合两塔输出,进行最终的VAD预测。 新意:区别于以往工作,InconVAD显式地将“不一致性检测”作为中间任务,并利用不确定性估计在融合前进行质量评估,最后采用选择性融合策略,避免了不一致信息在融合时造成的表示混淆。 实验结果:在情感不一致性检测任务上,InconVAD分类器在IEMOCAP+EmoV-DB构建的测试集上达到92.3%的准确率和92.2%的F1分数,显著超越了SVM (85.7% Acc)和ATEI (83.4% Acc)等基线。在多模态情感建模任务上,其融合塔在IEMOCAP数据集上的平均CCC达到0.657,优于现有方法MFCNN14 (0.642)和W2v2-b+BERT-b+L (0.618)。消融实验证明了各组件(如韵律注入、Conformer块、门控融合)的有效性。 实际意义:该工作为构建更可靠、可解释的情感计算系统提供了新思路,尤其适用于需要精确理解用户真实情感意图的场景,如心理健康监测、智能客服、人机交互。 局限性:主要依赖于特定数据集(IEMOCAP, EmoBank, EmoV-DB)构建和评估,其在更广泛语种、文化背景下的泛化能力未验证。模型的计算开销和实时性未被分析,可能限制在资源受限设备上的部署。不一致样本的构造方式(基于数据集配对)可能无法完全覆盖现实世界中的复杂情况。 🏗️ 模型架构 InconVAD是一个两阶段框架,整体架构如图1所示。 ...

2026-04-29

Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation

📄 Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation #音视频 #生成模型 #不确定性估计 #多模态模型 🔥 8.0/10 | 前25% | #音视频 | #生成模型 | #不确定性估计 #多模态模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Nanhan Shen(天津大学人工智能学院) 通讯作者:Zhilei Liu(天津大学人工智能学院) 作者列表:Nanhan Shen(天津大学人工智能学院)、Zhilei Liu(天津大学人工智能学院) 💡 毒舌点评 这篇论文精准地指出了3D情感说话人脸生成中“情感对齐差”和“多视图融合粗糙”两大痛点,并给出了模块化的解决方案,特别是首次引入不确定性建模来优化融合策略,思路值得肯定。然而,论文在工程实践上“留白”过多,关键代码和训练细节缺失,使得这个“不确定性”的黑盒更难被学界复现和验证。 📌 核心摘要 问题:现有3D情感说话人脸合成方法存在两大挑战:音视觉情感对齐差(难以从音频提取情感且微表情控制弱);多视图融合采用“一刀切”策略,忽略了不同视图特征质量的不确定性,导致渲染效果受损。 方法:提出UA-3DTalk框架,以3D高斯溅射为渲染骨干。其包含三个核心模块:先验提取模块,将音频解耦为内容同步特征和个性特征;情感蒸馏模块,通过多模态注意力融合和4D高斯编码,实现细粒度音频情感提取与表情控制;基于不确定性的变形模块,为每个视图估计偶然不确定性和认知不确定性,实现自适应多视图融合。 创新:首次在该领域系统性地建模并利用不确定性;提出不确定性感知的自适应融合策略;通过情感先验蒸馏协同解决情感对齐问题。 结果:在常规和情感数据集上的实验表明,UA-3DTalk在情感对齐(E-FID)、唇同步(SyncC)和渲染质量(LPIPS)上均优于SOTA方法。定量结果如下: 方法 数据集 LMD↓ PSNR↑ LPIPS↓ SSIM↑ Sync-C↑ E-FID↓ UA-3DTalk (本文) 常规/情感 2.492 / 5.407 28.923 / 28.408 0.032 / 0.067 0.928 / 0.938 5.750 / 5.152 0.072 / 0.145 DEGSTalk 常规/情感 1.960 / 3.923 27.104 / 28.051 0.042 / 0.162 0.891 / 0.924 5.663 / 5.007 0.076 / 0.154 EDTalk 常规/情感 3.827 / 6.548 25.627 / 18.061 0.073 / 0.297 0.888 / 0.864 6.173 / 7.550 0.483 / 0.668 TalkingGaussian 常规/情感 3.018 / 5.934 26.943 / 25.533 0.045 / 0.096 0.906 / 0.892 5.011 / 4.886 0.089 / 0.356 StableAvatar 常规/情感 4.117 / 7.150 18.403 / 19.290 0.258 / 0.228 0.480 / 0.619 4.421 / 3.972 0.546 / 0.430 消融研究(在MEAD情感数据集)显示,各模块均带来性能提升:完整模型(w/ P,E,U)相比基线,在E-FID上从0.356降至0.145,Sync-C从4.886提升至5.152。 ...

2026-04-29