Clue2Emo: A Brain-Inspired Framework for Open-Vocabulary Multimodal Emotion Recognition

📄 Clue2Emo: A Brain-Inspired Framework for Open-Vocabulary Multimodal Emotion Recognition #语音情感识别 #多模态模型 #大语言模型 #数据集 🔥 8.5/10 | 前25% | #语音情感识别 | #多模态模型 | #大语言模型 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyun Zhang (Ziyun Zhang1,2,†)(北京理工大学医学技术学院,深圳北理莫斯科大学人工智能研究院) 第一作者:Jian Chen (Jian Chen3,†)(香港大学电气与电子工程系) 通讯作者:Chengming Li (Chengming Li2,∗)(深圳北理莫斯科大学人工智能研究院) 通讯作者:Xiping Hu (Xiping Hu1,2,∗)(北京理工大学医学技术学院,深圳北理莫斯科大学人工智能研究院) 作者列表: Ziyun Zhang (北京理工大学医学技术学院,深圳北理莫斯科大学人工智能研究院) Jian Chen (香港大学电气与电子工程系) Yuxuan Hu (香港城市大学数据科学系) Zhen Zhang (深圳北理莫斯科大学人工智能研究院) Xiaoyan Yuan (北京理工大学医学技术学院,深圳北理莫斯科大学人工智能研究院) Min Yang (中国科学院深圳先进技术研究院) Xiangyu Zhao (香港城市大学数据科学系) Edith C. H. Ngai (香港大学电气与电子工程系) Chengming Li (深圳北理莫斯科大学人工智能研究院) Xiping Hu (北京理工大学医学技术学院,深圳北理莫斯科大学人工智能研究院) 💡 毒舌点评 论文提出了一个理论上优雅的“感知线索→推理”两阶段框架,并首次为情感识别构建了“感官线索”数据集MER-CLUE,这为提升黑盒模型的可解释性提供了有希望的路径。然而,其工程实现的细节模糊(如训练硬件、具体超参数未说明)以及代码、模型权重的缺位,让其“可复现性”大打折扣,使得这一精巧的设计目前更像一个高质量的“概念验证”而非开箱即用的解决方案。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 441 words

Context-Aware Dynamic Graph Learning for Multimodal Emotion Recognition with Missing Modalities

📄 Context-Aware Dynamic Graph Learning for Multimodal Emotion Recognition with Missing Modalities #语音情感识别 #多模态模型 #大语言模型 #多任务学习 #鲁棒性 🔥 8.8/10 | 前10% | #语音情感识别 | #多模态模型 | #大语言模型 #多任务学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Miree Kim(首尔淑明女子大学软件系) 通讯作者:Sunyoung Cho(首尔淑明女子大学软件系) 作者列表:Miree Kim(首尔淑明女子大学软件系)、Sunyoung Cho(首尔淑明女子大学软件系) 💡 毒舌点评 亮点在于将大语言模型从“黑盒”生成器改造为上下文感知的情感特征提取器,生成的关键词作为引导信息注入图神经网络,这种“LLM作为特征增强器”的思路比端到端微调更轻量且针对性强。短板是模拟缺失场景的方式(随机丢弃)可能过于理想化,与真实世界中模态缺失的关联性(如特定情境下语音质量差)不符,且未深入讨论LLM引入带来的计算开销。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/premiree/CDAGL.git 模型权重:未提及是否公开预训练模型权重。 数据集:使用公开数据集IEMOCAP和MELD,但未说明具体获取方式或预处理脚本。 Demo:未提供在线演示。 复现材料:论文“Implementation details”小节提供了较为详细的超参数设置(特征提取器、模型维度、优化器、损失权重等),对复现核心方法有帮助。 引用的开源项目:Qwen-7B(LLM)、AudioCLIP、BERT、DenseNet-121、MMIN[8]中的Imagination Module。 📌 核心摘要 问题:对话场景下的多模态情感识别(MERC)在实际应用中面临模态缺失(如文本、音频、视频不全)的挑战,现有方法难以在缺失条件下保持语义一致性和鲁棒性。 方法核心:提出一个统一框架,包含三个核心组件:(1) 一个自适应对话图,利用改进的动态图常微分方程(DGODE)建模说话人及时间动态;(2) 利用大语言模型(Qwen-7B)提取条件化的、情感相关的关键词,作为重构缺失模态的语义引导;(3) 引入基于AudioCLIP的跨模态对齐损失,强制重建模态与可用模态语义一致。 创新点:相比传统统计填充或简单生成模型,本方法创新性地结合了图动态建模、大语言模型上下文引导的语义增强和跨模态对比对齐,实现了在缺失模态下的高质量重构与情感识别。 主要实验结果:在IEMOCAP和MELD数据集上,该方法在6种模态缺失场景的平均F1分数(Avg. F1)分别达到69.13%和62.39%,显著优于之前SOTA方法(如MPLMM:67.22%, 60.56%)。在全模态设置下也达到最优(IEMOCAP:73.74% F1; MELD:70.22% F1)。消融实验证实了LLM关键词(带来约1.8-2.6% F1提升)和AudioCLIP对齐(带来约1.2-1.7% F1提升)的有效性。 数据集 方法 {a} F1 {v} F1 {t} F1 {a,v} F1 {a,t} F1 {v,t} F1 Avg. F1 IEMOCAP Ours 61.28 58.14 70.91 69.15 78.22 77.05 69.13 MPLMM 59.71 56.98 69.28 67.37 75.44 74.51 67.22 MELD Ours 55.21 51.64 67.71 59.97 69.67 70.15 62.39 MPLMM 52.95 50.41 65.28 58.14 68.29 68.31 60.56 实际意义:为构建在现实复杂环境下(传感器不稳定、数据部分丢失)仍能稳定工作的情感计算系统提供了有效的解决方案。 主要局限性:模态缺失模拟方式(随机丢除)可能与真实场景不完全一致;框架依赖多个预训练模型(BERT, AudioCLIP, DenseNet, Qwen),推理流程相对复杂;未详细分析大语言模型推理带来的额外计算成本。 🏗️ 模型架构 模型架构(如图1所示)是一个端到端的联合优化框架,主要包含以下模块和数据流�� ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 367 words

Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs

📄 Continuous-Token Diffusion for Speaker-Referenced TTS in Multimodal LLMs #语音合成 #多模态模型 #扩散模型 #自回归模型 🔥 8.0/10 | 前10% | #语音合成 | #扩散模型 | #多模态模型 #自回归模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 -0.3 | 置信度 高 👥 作者与机构 第一作者:Xinlu He(Worcester Polytechnic Institute, Amazon AGI) 通讯作者:未说明 作者列表:Xinlu He*(Worcester Polytechnic Institute, Amazon AGI), Swayambhu Nath Ray(Amazon AGI), Harish Mallidi(Amazon AGI), Jia-Hong Huang(Amazon AGI), Ashwin Bellur(Amazon AGI), Chander Chandak(Amazon AGI), M. Maruf(Amazon AGI), Venkatesh Ravichandran(Amazon AGI) 💡 毒舌点评 亮点在于其高效的双头架构设计和两阶段训练策略,成功将连续token扩散“塞进”了自回归框架并取得了SOTA的自回归TTS结果,参数效率极高。短板则是开源精神的缺失,在声称“仅用于研究”的同时,却未提供任何模型、代码或数据,让“复现”成了镜花水月。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 454 words

Coupling Acoustic Geometry and Visual Semantics for Robust Depth Estimation

📄 Coupling Acoustic Geometry and Visual Semantics for Robust Depth Estimation #空间音频 #多模态模型 #时频分析 #鲁棒性 ✅ 7.5/10 | 前25% | #空间音频 | #多模态模型 | #时频分析 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 基于论文内容提取如下: 第一作者:Anjie Wang(北京大学电子与计算机工程学院,鹏城实验室) 通讯作者:Zhijun Fang(复旦大学可信具身AI研究所,东华大学信息与智能科学学院)(论文中注明“Corresponding author: Zhijun Fang (zjfang@fudan.edu.cn)”) 作者列表: Anjie Wang(北京大学电子与计算机工程学院,鹏城实验室) Mingxuan Chen(上海工程技术大学电子与电气工程学院) Xiaoyan Jiang(上海工程技术大学电子与电气工程学院) Yongbin Gao(上海工程技术大学电子与电气工程学院) Zhijun Fang(复旦大学可信具身AI研究所,东华大学信息与智能科学学院) Siwei Ma(北京大学计算机科学学院) 💡 毒舌点评 亮点在于其融合策略的精巧设计,通过语义查询注入(SQI)和条件解码器(SGCD)明确地解决了声学稀疏几何与密集视觉语义间的对齐难题,并用不确定性门控(DUGF)实现了自适应的模态平衡,这在思想上比简单的拼接或注意力融合更进了一步。然而,所有实验均基于合成声学数据(Echo simulation),且数据集均为室内场景,其结论在真实世界复杂声学环境(如室外、多声源干扰)中的泛化能力未经验证,这是其最大的短板。 🔗 开源详情 根据论文内容: 代码:论文中未提及代码链接或开源计划。 模型权重:未提及公开模型权重。 数据集:使用的是公开数据集Replica和Matterport3D。但声学数据(回声频谱图)是基于这些数据集场景模拟生成的,具体的模拟脚本或数据未提及公开。 Demo:未提供在线演示。 复现材料:论文提供了一定的训练细节(优化器、学习率、轮数、批量大小、损失函数权重λ)和网络超参数,但缺乏预训练骨干网络的具体配置、数据模拟的详细参数、以及完整的训练/评估脚本。 论文中引用的开源项目:引用了多个开源方法作为基线(如VisualEchoes [1], BI2D [2]),但未明确说明其代码是否被用于实现或复现。 📌 核心摘要 要解决什么问题:单目深度估计在低纹理、反射、光照差和遮挡等场景下性能下降严重;而主动声学(如回声)能提供几何互补线索,但存在数据稀疏、与图像不对齐的问题。现有音视觉融合方法未能充分解决这种模态间的异质性。 方法核心是什么:提出了EchoFormer框架,���核心是三个组件:(1)语义查询注入(SQI):将DINOv2提取的全局图像语义作为查询,通过交叉注意力引导对回声特征的关注;(2)语义-几何条件解码器(SGCD):使用图像特征和语义查询通过FiLM调制来条件化地解码多尺度回声特征;(3)动态不确定性感知门控融合(DUGF):一个轻量级卷积头预测像素级置信度权重,自适应地融合视觉和回声特征。 与已有方法相比新在哪里:与先前简单的拼接或浅层融合(如VisualEchoes, BI2D)不同,EchoFormer显式地将高层语义信息作为桥梁来耦合稀疏的声学几何特征和密集的视觉语义特征。DUGF模块引入了像素级的不确定性感知,使模型能在纹理丰富区域更信赖视觉,在黑暗或反光区域更信赖声学,这比全局加权融合更精细。 主要实验结果如何:在Replica和Matterport3D两个室内基准上,EchoFormer(Mono+Echo)全面超越了现有回声单模态、单目单模态及融合方法。在Replica上,RMSE从最强基线[15]的0.246降至0.186,δ<1.25从0.865提升至0.919。在Matterport3D上,RMSE从0.845降至0.812。消融实验证实SGCD和DUGF均带来持续性能提升。 实际意义是什么:为机器人导航、增强现实、三维重建等应用在视觉受限的恶劣环境中提供了更鲁棒的深度感知解决方案,推动了多模态感知在复杂真实场景中的落地。 主要局限性是什么:实验完全基于模拟生成的回声数据,缺乏真实世界采集的音视觉配对数据的验证;仅评估了室内场景;声学模型单一(仅模拟了单回声源),未考虑更复杂的声学环境。 EchoFormer的整体架构如图1所示,其输入为128x128的RGB图像和对应的回声频谱图,输出为密集深度图。 架构主要包含以下组件和数据流: ...

2026-04-29 · 更新于 2026-05-20 · 4 min · 742 words

CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content

📄 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content #跨模态检索 #音视频 #多模态模型 #对比学习 #数据集 #基准测试 ✅ 6.5/10 | 前25% | #跨模态检索 | #多模态模型 | #音视频 #对比学习 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Gyuwon Han (Chung-Ang University) 通讯作者:Chanho Eom (Chung-Ang University) 作者列表:Gyuwon Han (Chung-Ang University)、Young Kyun Jang (Google DeepMind)、Chanho Eom (Chung-Ang University) 💡 毒舌点评 论文最大的亮点是提出了一个非常实际且被忽视的问题——用户可能因为音频不同而对视觉相似的视频有不同需求,并为此构建了首个音视频组合变化的检索基准,填补了领域空白。短板在于其提出的AVT融合模块本质上是为多模态特征学习一个加权平均,技术复杂度较低,核心模型架构创新有限。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/perceptualai-lab/CoVA/ 模型权重:论文中未明确提及是否公开预训练或微调后的模型权重。 数据集:论文中构建了AV-Comp基准数据集,并提供了在线演示页面,但未明确说明数据集的公开下载方式。数据集地址:https://perceptualai-lab.github.io/CoVA/ Demo:提供了在线演示:https://perceptualai-lab.github.io/CoVA/ 复现材料:论文提供了实验设置、关键超参数(学习率、批大小、轮数)和训练硬件信息。未提供训练日志、配置文件或检查点。 论文中引用的开源项目: CLIP(视觉和文本编码器) AST(音频编码器) Qwen2.5-VL-32B-Instruct(用于生成视频描述) Gemini(用于生成修改文本) AudioCaps 2.0(提供人工标注的音频描述) 📌 核心摘要 要解决什么问题:现有的组合视频检索(CoVR)方法仅考虑视觉内容的修改,忽略了音频对用户检索意图的关键影响,导致视觉相似但音频不同的视频被错误地视为语义等价。 方法核心是什么:提出了CoVA任务和AV-Comp数据集。方法上,提出了AVT Compositional Fusion模块,该模块通过一个简单的MLP为来自参考视频、修改文本(拆分为对象、动作、属性、音频四个方面)的每个特征分量预测一个权重,然后进行加权融合,以动态适应查询语义。 与已有方法相比新在哪里:首次将音频模态的变化作为组合检索的核心考量因素。构建了首个支持音视频对齐变化查询的数据集AV-Comp。提出的AVT模块相比简单的平均融合,能更有效地利用多模态信息。 主要实验结果如何:在AV-Comp测试集上,CoVA(使用CLIP-L编码器)达到了35.9% R@1,显著优于LanguageBind(27.17%)和ImageBind(20.2%)。消融实验证明移除任何文本组件(对象、动作、属性、音频)都会导致性能下降,证实了四个组件的必要性。主要结果对比如下表: 方法 R@1↑ R@5↑ R@10↑ MnR↓ ImageBind 20.2 50.5 65.4 14.6 LanguageBind 27.17 61.44 77.12 8.7 CoVA (Ours) 35.9 73.7 86.4 6.2 实际意义是什么:为音视频内容的精细检索提供了新的范式和评估基准,推动多模态检索模型更全面地理解人类的多感官意图。 主要局限性是什么:AVT模块设计相对简单,其性能提升部分依赖于更换了更强的文本编码器(CLIP-L)。数据集构建过程依赖于现成的视觉/音频描述生成模型(Qwen2.5-VL, Gemini),可能引入偏差。方法的可扩展性和在更复杂场景下的鲁棒性有待验证。 🏗️ 模型架构 CoVA框架整体分为三个模块:特征提取、门控融合Transformer(GFT)和AVT组合融合。其完整流程如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 345 words

Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition

📄 Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition #语音识别 #多模态模型 #跨模态 #鲁棒性 #音视频 ✅ 7.5/10 | 前25% | #语音识别 | #多模态模型 | #跨模态 #鲁棒性 学术质量 6.0/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Seaone Ok(首尔大学IPAI、首尔大学智能信息学系) 通讯作者:Kyogu Lee(首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS) 作者列表:Seaone Ok(首尔大学IPAI、首尔大学智能信息学系)、Min Jun Choi(首尔大学IPAI、首尔大学智能信息学系)、Eungbeom Kim(首尔大学IPAI)、Seungu Han(首尔大学智能信息学系)、Kyogu Lee(首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS) 💡 毒舌点评 该工作的核心亮点在于将“注意力瓶颈”这一高效范式巧妙移植到音视频语音识别中,通过一组可学习的紧凑令牌来调节跨模态信息流,在数据效率和噪声鲁棒性上展现出明显优势,尤其是在极端噪声(-7.5dB)下性能提升显著。然而,其最终性能天花板仍被使用海量数据预训练的模型(如Auto-AVSR)牢牢压制,表明瓶颈融合本身并不能解决AVSR对大规模数据的根本依赖,创新性更多体现在工程优化而非原理突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用公开的LRS2和LRS3数据集。 Demo:未提及在线演示。 复现材料:提供了非常详细的训练配置、超参数和数据增强策略,为复现提供了良好的基础。 论文中引用的开源项目:NOISEX-92噪声库、Speech Commands数据集。 总体而言,论文中未提及开源计划,但提供了详实的复现细节。 📌 核心摘要 要解决的问题:传统的音频语音识别在噪声下性能严重下降。现有的音频-视觉语音识别融合方法要么融合效果不佳,要么计算开销过大。核心挑战是如何设计一种机制,让模型在音频信号退化时能有效利用视觉信息,同时在干净语音下保持高性能。 方法核心:提出CoBRA框架,采用双流(音频/视频)Conformer编码器,并在其中层引入一组紧凑的可学习“瓶颈令牌”。音频和视频流不直接交互,而是通过这组令牌进行信息交换,从而高效且可控地融合跨模态信息。 与已有方法相比新在哪里:与传统的拼接或全注意力交叉融合相比,CoBRA通过瓶颈令牌严格调节信息流,减少了冗余和计算量。与应用于视频分类的MBT不同,本文专门针对AVSR的时序和解码特性进行了适配和深入研究,特别是系统地探索了融合层位置的影响。 主要实验结果:在LRS3数据集上,使用664小时训练数据,干净语音WER为1.6%,在-7.5dB的babble噪声下WER为11.79%,相比基线(18.58%)相对提升约36.6%。在LRS2上取得2.8% WER。消融实验表明,中层融合(第4层)和32个瓶颈令牌是最优配置。注意力分析显示,随着噪声增强,模型更多地依赖视觉线索。 数据集 方法 训练小时数 干净WER (%) -7.5dB Babble WER (%) LRS3 CM-seq2seq (基线) 596 2.30 18.58 LRS3 CoBRA (Ours) 664 1.6 (主结果表) / 1.96 (消融表) 11.79 LRS2 CM-seq2seq (基线) 381 3.7 未提供 LRS2 CoBRA (Ours) 664 2.8 未提供 注:主结果表与消融表中的基线和CoBRA数值存在细微差异,可能源于不同的实验设置或数据子集,此处一并列出。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 289 words

DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS

📄 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS #视频问答 #多模态模型 #时间定位 #渐进训练 ✅ 7.0/10 | 前25% | #视频问答 | #多模态模型 | #时间定位 #渐进训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Bo-Cheng Chiu (国立阳明交通大学人工智能学院) 通讯作者:未明确标注。根据贡献和机构排序,推测可能为通讯作者的是:Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), 或 An-Zi Yen (国立阳明交通大学计算机科学系)。论文中未明确指定。 作者列表:Bo-Cheng Chiu (国立阳明交通大学人工智能学院), Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), Feng-Chi Chen (国家卫生研究院人口健康科学研究所), An-Zi Yen (国立阳明交通大学计算机科学系) 💡 毒舌点评 这篇论文在“用有限数据做好时间推理”这个问题上给出了一个工程上漂亮的答卷,其四阶段训练策略和针对时间性的架构设计确实能提升模型对视频时间线的理解力,实验也证明了其在特定benchmark上的有效性。但说实话,它的核心组件如双流融合、可学习查询、LoRA微调等都不是独创,更像是针对视频任务的一次精心的“乐高组装”;另外,其宣称的“数据高效”优势,在论文比较表中与部分基线使用的数据规模差异巨大,这种对比的公平性值得进一步考量。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 446 words

DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content

📄 DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content #多模态模型 #音频事件检测 #对比学习 #知识蒸馏 #弱监督学习 🔥 8.0/10 | 前25% | #音频事件检测 | #对比学习 #知识蒸馏 | #多模态模型 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Song Xiao (中国科学技术大学, 北京电子科学和技术学院) 通讯作者:Xu Ji (中国科学技术大学) 作者列表:Song Xiao(中国科学技术大学, 北京电子科学和技术学院)、Xu Ji(中国科学技术大学, 北京电子科学和技术学院)、Haodong Yan(西安电子科技大学)、Xinyue Yu(中国科学技术大学) 💡 毒舌点评 论文的核心亮点在于其双分支自蒸馏架构,巧妙地利用一个更稳定的视觉分支来“教导”多模态分支,有效缓解了弱监督场景下音频噪声和模态不平衡问题。然而,作为一篇顶会论文,其核心方法(瓶颈融合、混合头部注意力)的理论深度和新意略显不足,更多是工程技巧的有效组合与验证,对比学习部分的马氏距离度量也相对常规。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/Sphnix-box/DBFT-SD。 模型权重:论文中未提及是否提供预训练模型权重下载。 数据集:论文中使用了XD-Violence数据集,但未说明其获取方式或是否公开提供。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了部分训练细节(优化器、学习率、批大小、epoch数、硬件、Dropout率、关键自蒸馏超参数)。 论文中引用的开源项目:未明确列出依赖的开源工具或模型,但特征提取使用了I3D/CLIP (视觉) 和 VGGish (音频)。 📌 核心摘要 本文针对弱监督下大规模在线音视频敏感内容(如暴力、色情)检测的挑战,提出了动态瓶颈融合Transformer(DBFT)及其自蒸馏变体DBFT-SD。要解决的核心问题是现有方法中多模态信息融合效率低、弱监督标签噪声大以及模态间不平衡导致性能受限。方法核心是:1)在DBFT中,设计了包含动态路由的混合头部注意力机制和瓶颈融合Transformer,实现自适应的模态内与模态间特征聚合;2)在DBFT-SD中,引入一个仅使用视觉特征的辅助分支,通过基于余弦调度器的权重移动平均自蒸馏,将视觉分支的稳定知识迁移至多模态分支,并结合基于马氏距离的对比学习来增强关键帧的判别力。与已有方法相比,新在提出了整合动态注意力、瓶颈融合和自蒸馏的端到端多模态检测框架,能更好地处理噪声和模态不平衡。主要实验在XD-Violence数据集上进行,DBFT-SD达到了85.9%的平均精度(AP),超越了之前最优的多模态方法BN-WVAD(85.26% AP)和视觉方法VadCLIP(84.51% AP)。实际意义在于为社交媒体、视频平台的内容安全审核提供了更高效准确的自动化工具。主要局限性是对比实验仅在一个标准数据集上进行,缺乏更多样化或更具挑战性场景的验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 215 words

DDSR-Net: Robust Multimodal Sentiment Analysis via Dynamic Modality Reliability Assessment

📄 DDSR-Net: Robust Multimodal Sentiment Analysis via Dynamic Modality Reliability Assessment #语音情感识别 #多模态模型 #对比学习 #特征分解 ✅ 6.5/10 | 前50% | #语音情感识别 | #对比学习 | #多模态模型 #特征分解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jianwen Hou (新疆大学计算机科学与技术学院) 通讯作者:Kurban Ubul (新疆大学计算机科学与技术学院) 作者列表:Jianwen Hou (新疆大学计算机科学与技术学院), Enguang Zuo (新疆大学智能科学与技术学院, 清华大学电子工程系), Chaorui Shi (新疆大学计算机科学与技术学院), Kurban Ubul (新疆大学计算机科学与技术学院) 💡 毒舌点评 该论文的“评估-修复-聚焦”闭环设计思路巧妙,为处理多模态数据中的质量不均衡问题提供了一个系统性框架,且在主流基准测试上取得了不错的成绩。然而,其核心组件之一“协同重建”的生成器(QGME-Net)内部结构细节在正文和附图中均未清晰展示,这为理解其工作原理和复现带来了障碍。 🔗 开源详情 代码:论文中未提及代码链接或开源仓库。 模型权重:未提及公开权重。 数据集:使用公开的CMU-MOSI和CMU-MOSEI数据集,但未说明具体获取方式或预处理脚本。 Demo:未提供在线演示。 复现材料:论文未提供训练细节(如优化器、学习率、batch size)、超参数配置、检查点或附录说明。 论文中引用的开源项目:论文中引用了多个基线模型(如TFN, MulT, Self-MM等)的官方代码仓库([6]-[22]),但未明确说明DDSR-Net���身是否基于或依赖这些项目。 总结:论文中未提及任何关于开源计划、代码发布或模型共享的信息。 📌 核心摘要 这篇论文旨在解决多模态情感分析中,现实场景下非对齐数据存在的模态质量动态不均和噪声问题。其核心方法DDSR-Net提出了一种“动态质量感知”的框架,包含四个主要模块:模态质量评估模块(为每个样本的每个模态计算可靠性分数)、特征分解模块(将特征分解为共享和模态特定部分)、协同重建模块(利用高质量模态信息修复低质量模态的特定特征)以及动态聚焦注意力模块(根据质量分数自适应融合特征)。该方法通过“评估-修复-聚焦”的闭环流程,动态处理噪声和不对称性。实验结果在CMU-MOSI和CMU-MOSEI两个基准数据集上,DDSR-Net在多数指标(如MOSI的MAE、Corr、Acc-5)上超越了已有的最先进方法。其实际意义在于提升了多模态情感分析模型在非理想数据下的鲁棒性。主要局限性在于协同重建模块的具体生成器架构描述不够详细,可能影响理解和复现。 ...

2026-04-29 · 更新于 2026-05-20 · 5 min · 864 words

DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations

📄 DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations #语音情感识别 #扩散模型 #图神经网络 #多模态模型 #缺失模态补全 🔥 8.0/10 | 前25% | #语音情感识别 | #扩散模型 | #图神经网络 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingjian Yang(电子科技大学,智能协同计算实验室) 通讯作者:Wen Yin(电子科技大学,智能协同计算实验室) 作者列表:Mingjian Yang(电子科技大学,智能协同计算实验室)、Yong Wang(电子科技大学,智能协同计算实验室)、Peng Liu(电子科技大学,智能协同计算实验室)、Wen Yin†(电子科技大学,智能协同计算实验室) 💡 毒舌点评 亮点: 精准抓住了现有方法在“保持对话图谱结构”与“对齐特征分布”之间的核心矛盾,并通过将扩散过程严格约束在谱空间(特征值扩散)来优雅地同时解决这两个问题,设计思路清晰且有理论依据。 短板: 门控谱分类(GSC)模块中的熵加权机制更像是一种启发式的不确定性融合,对于“说话人连续性”和“情感方差”等关键对话动态的显式建模略显不足,可能限制了其在更复杂交互场景下的性能天花板。 🔗 开源详情 代码: 论文提供了开源代码仓库链接:https://github.com/Yyyy-aizhien/DGSDNet。 模型权重: 论文中未提及是否公开预训练模型权重。 数据集: 论文使用的IEMOCAP和CMU-MOSI为公开数据集,但论文中未提供获取或预处理脚本的具体说明。 Demo: 论文中未提及提供在线演示。 复现材料: 论文提供了基础实现细节(优化器、学习率、Dropout率等),但缺少训练步数、批量大小、特征提取模型版本、具体GPU环境等关键复现信息。 论文中引用的开源项目: 论文中未明确列出所依赖的特定开源工具或模型库(如特征提取器)。 📌 核心摘要 要解决的问题: 现实对话场景中,模态(文本、音频、视觉)缺失导致多模态情感识别性能严重下降。现有基于图或扩散的方法存在“语义不连续”(破坏图结构或改变特征分布)和“静态融合”(固定权重无法适应动态变化)两大挑战。 方法核心: 提出DGSDNet框架,包含双谱扩散(DSD)模块和门控谱分类(GSC)模块。DSD将对话图谱(说话人图和时序图)分解为拓扑不变的特征向量和可扩散的特征值,并在特征值空间施加扩散过程以恢复缺失模态,从而同时保持图结构并生成分布对齐的特征。GSC模块基于节点特征的熵进行自适应门控,动态融合双图谱信息。 与已有方法相比新在哪里: 区别于直接在特征空间或邻接矩阵上扩散的方法,本工作首次将扩散过程严格限制在图谱的谱空间(对角特征值矩阵)上进行,理论上避免了扩散过程破坏图的局部拓扑。同时,提出了基于重建不确定性的动态门控融合机制,替代了传统的静态加权。 主要实验结果: 在IEMOCAP和CMU-MOSI两个基准数据集上,当模态缺失率从0.0到0.7变化时,DGSDNet的平均加权F1分数(WAF1)分别达到77.60% 和 79.7%,超过了所有对比的SOTA方法(如GCNet, SDR-GNN, DiCMoR)。消融实验证实了说话人图、时序图、双谱扩散和门控分类模块的有效性,移除DSD模块性能下降最显著。 实际意义: 提升了多模态对话系统在传感器故障、隐私限制等真实复杂环境下的情感理解鲁棒性,对智能客服、人机交互、心理健康监测等应用有潜在价值。 主要局限性: 1) 未处理异步多模态序列和更开放域的对话场景。2) 门控融合模块对对话动态的建模相对简单。3) 仅在两种标准数据集上验证,泛化性有待进一步考察。 🏗️ 模型架构 DGSDNet的架构(如图2所示)分为三个主要阶段: ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 438 words