PlanRAG-Audio: Planning and Retrieval Augmented Generation for Long-form Audio Understanding

📄 PlanRAG-Audio: Planning and Retrieval Augmented Generation for Long-form Audio Understanding #长音频理解 #音频问答 #检索增强生成 #大语言模型 #说话人分离 #情感识别 #声音事件检测 ✅ 7.4/10 | 前50% | #长音频理解 | #检索增强生成 | #音频问答 #大语言模型 | arxiv 学术质量 4.9/7 | 影响力 1.5/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 第一作者:Masao Someki (Language Technologies Institute, Carnegie Mellon University) 通讯作者:未说明 作者列表:Masao Someki (Carnegie Mellon University), Chien-yu Huang (Carnegie Mellon University), Siddhant Arora (Carnegie Mellon University), Samuele Cornell (Carnegie Mellon University), Markus Müller (Amazon AGI), Nathan Susanj (Amazon AGI), Rupak V Swaminathan (Amazon AGI), Grant P Strimel (Amazon AGI), Jing Liu (Amazon AGI), Shinji Watanabe (Carnegie Mellon University) 💡 毒舌点评 本文提出了一种将长音频理解重构为结构化检索问题的框架(PlanRAG-Audio),其核心思路——通过显式规划来定位多模态线索——确实清晰且具有启发性。然而,该框架本质上是多个预训练模块的流水线组合,其性能高度依赖于上游感知组件(ASR、SD、ER、SED)的“完美”输出,而论文对此误差传播缺乏深入分析。简单关键词检索与“复杂规划”之间的潜在不匹配问题,虽被实验部分回避,但仍是方法上的一个明显短板。此外,对Gemini长上下文能力的评估受限于API,结论的普适性有待商榷。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 511 words

GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction

📄 GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction #数据集 #多模态模型 #情感识别 #基准测试 #协作交互 #过程建模 ✅ 6.8/10 | 前50% | #数据集 | #多模态模型 | #情感识别 #基准测试 | arxiv 学术质量 5.3/8 | 影响力 0.6/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Meisam Jamshidi Seikavandi(1GN Advanced Science, GN Group, Ballerup, Denmark;2IT University of Copenhagen, brAIn lab, Copenhagen, Denmark)。根据论文脚注“These authors contributed equally.”,Meisam Jamshidi Seikavandi、Alice Modica和Anna Obara为共同第一作者。 通讯作者:未明确指定,但论文中将Meisam Jamshidi Seikavandi标注为“corresponding author”。 作者列表:Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner。机构涉及GN Advanced Science (GN Group), IT University of Copenhagen, Copenhagen Business School, Aalborg University。 💡 毒舌点评 这篇论文是一个扎实的“基础设施”工作。亮点在于其对数据集构建和发布的极高透明度要求:BIDS-inspired结构、Croissant元数据、详细的数据表、每会话质量报告,这为后续研究设立了一个可审计的标杆。它精准定位了多人、多模态、多层次(个体内/个体间/群体)情感分析数据集的空白,并通过精心设计的四个协作任务和同步的多传感器采集来填补。然而,短板也同样明显且根本:10组40人的样本量使得许多定义的“基准测试”在统计上形同虚设。论文中大量基准任务(特别是涉及个体间特质和群体动态的)的性能接近随机,其置信区间宽到无法得出任何稳健结论。这使得论文更像是一份“问题定义书”和“数据发布说明书”,而非一份能产出可靠科学发现的实验报告。基线模型的“失败”(如群体不平等性预测)更多暴露了数据量不足导致的过拟合,而非方法本身的缺陷。 ...

2026-05-20 · 更新于 2026-06-12 · 3 min · 548 words

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型 ✅ 7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ashutosh Chaubey(南加州大学创意技术研究所) 通讯作者:未说明(论文提供了第一作者和通讯作者的邮箱,但未在作者列表中明确区分) 作者列表:Ashutosh Chaubey(南加州大学创意技术研究所)、Jiacheng Pang(南加州大学创意技术研究所)、Maksim Siniukov(南加州大学创意技术研究所)、Mohammad Soleymani(南加州大学创意技术研究所) 💡 毒舌点评 该工作像一个严谨的“情感AI产品测试员”,不仅自己设计了一套挑剔的“质检标准”(EmoReAlM基准),还研发了一套让模型“改掉坏习惯”的训练方法(AVEm-DPO),且实验做得很扎实。但它的核心方法(多模态DPO+去偏)更像是对现有技术的巧妙组合与针对性应用,在算法原创性上略显不足,更像是一篇优秀的工程系统论文而非理论突破。 🔗 开源详情 代码:论文提供了项目页面地址 avere-iclr.github.io,并声明代码、模型和基准将公开。 模型权重:论文声明将公开模型权重。 数据集:论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的附录(Appendix),包括所有数据创建和评估所用的提示(图19-37)、训练细节(C.3)、基准统计(B.3)、人类验证流程(B.2)、消融实验设置(D.5)等,复现材料非常充分。 论文中引用的开源项目:依赖的主要开源项目包括: 模型:EmotionLLaMA,Whisper (large-v3),LanguageBind (视频编码器),VideoLLaMA,PandaGPT,OneLLM,VITA-1.5,Qwen-2.5 Omni。 数据集:DFEW,MAFW,MER2025,RAVDESS,EMER。 工具:GPT-4o,Gemini-2.5,Qwen-2.5(用于数据生成和评估)。 📌 核心摘要 要解决什么问题:当前多模态大语言模型(MLLMs)在音视频情感推理中存在两大问题:一是“推理错误”,即模型将情感错误地关联到不相关的视听线索上;二是“感知错误”,即模型基于语言模型的文本先验,幻觉出不存在的视听线索来解释情感。 方法核心是什么:论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出:1)基于提示的模态偏好(PMP),确保模型关注正确的模态;2)基于情感的响应偏好(ERP),直接针对虚假关联和幻觉构建拒绝响应;3)引入文本先验去偏(TPD)正则项,惩罚仅基于文本生成的响应。 与已有方法相比新在哪里:相较于简单的DPO应用,AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略,特别是Prompt-based Modality Preference和Text-Prior Debiasing,这比传统只对响应进行偏好优化的方法更精细,更能解决跨模态幻觉问题。 主要实验结果如何:在多个数据集上,AVEm-DPO显著提升了基线模型性能。例如,在自有EmoReAlM基准上,以“Our base”模型为例,其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%(相对提升28%)。在EMER情感推理数据集的人类评估中,其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效,特别是TPD对降低幻觉至关重要。 实际意义是什么:该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案,包括一个可复现的基准测试(EmoReAlM)和一套有效的优化方法(AVEm-DPO),有助于构建更可靠、更少幻觉的情感AI代理。 主要局限性是什么:论文承认其基准测试(EmoReAlM)源自DFEW数据集,可能继承其文化偏见;训练数据和基准主要基于短视频,长视频情感理解仍是挑战;模型在“厌恶”这一模糊情感上的识别效果不佳,可能源于训练样本不足;且对虚假音频线索的缓解仍有改进空间。 🏗️ 模型架构 论文提出的AVEm-DPO是一种训练方法,而非一个新的神经网络架构。它应用于现有的音视频大语言模型(如EmotionLLaMA或作者自建的基线模型)之上,通过修改训练目标来优化模型。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 293 words

APKD: Aligned And Paced Knowledge Distillation Towards Lightweight Heterogeneous Multimodal Emotion Recognition

📄 APKD: Aligned And Paced Knowledge Distillation Towards Lightweight Heterogeneous Multimodal Emotion Recognition #知识蒸馏 #情感识别 #多模态模型 #语音情感识别 #轻量化 ✅ 7.5/10 | 前25% | #情感识别 | #知识蒸馏 | #多模态模型 #语音情感识别 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yujian Sun(山东理工大学计算机科学学院) 通讯作者:Shanliang Yang(山东理工大学计算机科学学院,yangshanliang@sdut.edu.cn) 作者列表:Yujian Sun(山东理工大学计算机科学学院),Bingtian Qiao(福州大学莫纳什大学联合国际学院),Yiwen Wang(福州大学莫纳什大学联合国际学院),Shanliang Yang(山东理工大学计算机科学学院) 💡 毒舌点评 APKD框架的亮点在于其问题洞察力——指出异构蒸馏中“特征对齐”与“知识粒度调整”是深度耦合的,并用协同模块优雅地解决了这一矛盾。但短板也很明显:实验仅验证了预设的“大Transformer教师-CNN/MobileViT学生”这一种异构模式,对于其他类型的异构架构(如不同规模的Transformer)是否同样有效缺乏探索,结论的普适性有待加强。 🔗 开源详情 代码:提供了GitHub代码仓库链接:https://github.com/ItsDia/AP-KD。 模型权重:论文中未提及公开预训练学生模型权重。 数据集:使用了CMU-MOSEI和IEMOCAP两个公开数据集,论文中说明了数据集来源,获取方式未详细说明,通常需要按原数据集要求申请。 Demo:论文中未提及在线演示。 复现材料:提供了详细的训练超参数(学习率、优化器、batch size、epoch数、损失权重等)、硬件配置、网络架构细节以及损失函数公式,复现材料较为充分。 引用的开源项目:明确引用了作为教师和学生模型的开源预训练模型,包括SSAST、ViT-B/16、RoBERTa、LightSERNet、MobileViT v3和TextCNN。也引用了GRL等基础模块的来源。 📌 核心摘要 问题:在基于知识蒸馏的轻量级多模态情感识别中,教师与学生模型在架构和规模上的异质性导致两大耦合挑战:特征空间不匹配、不同模态教师的知识粒度差异大。 方法核心:提出APKD框架,包含两个协同工作的模块:结构特征对齐(SFA)模块和自适应知识节奏(AKP)模块。SFA通过标准化将异构特征映射到共享空间;AKP为每个模态引入可学习的节奏系数,动态调整教师知识分布的软硬程度。 创新点:首次明确将异构MER中的特征对齐与知识粒度调整作为耦合问题进行联合优化。AKP模块利用梯度反转层自适应学习每个模态的节奏系数,实现了“按需分配”知识。 主要实验结果:在CMU-MOSEI和IEMOCAP数据集上取得SOTA。一个仅2.73M参数的超轻量学生模型,准确率分别达到49.51%和73.96%,超越或持平于参数量大得多的现有方法。消融实验证实SFA和AKP模块均不可或缺。 实际意义:为将高性能的多模态情感识别模型部署到计算资源有限的边缘设备提供了有效的解决方案,推动了该技术在实际人机交互场景中的应用。 局限性:异质性定义主要基于“大模型教师与小CNN/MobileViT学生”这一范式。对其他异质性组合的普适性未验证。节奏系数τₘ的调整范围(1.0-20.0)是经验值,其理论选择依据未深入探讨。 🏗️ 模型架构 APKD框架的整体架构如图1所示。它遵循“大教师-小学生”的范式,旨在实现高效知识迁移。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 265 words

DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition

📄 DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition #多模态模型 #情感识别 #对比学习 #鲁棒性 ✅ 7.5/10 | 前25% | #情感识别 | #对比学习 | #多模态模型 #鲁棒性 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huan Zhao(湖南大学计算机科学与电子工程学院) 通讯作者:Yingxue Gao*(湖南大学计算机科学与电子工程学院) 作者列表:Huan Zhao(湖南大学计算机科学与电子工程学院)、Zhijie Yu(未说明)、Yong Wei(未说明)、Bo Li(未说明)、Yingxue Gao(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 这篇论文最大的亮点在于其问题洞察和框架设计——将模糊的“模态缺失鲁棒性”问题,转化为对“显著”与“细微”情感表征的显式解耦与利用,MHDW机制对此提供了巧妙的工程实现。短板在于,其生成模块(GM)采用简单的1D卷积聚合可用模态信息来“补全”缺失模态,这一假设(缺失模态信息可由其他模态线性合成)可能过于理想,在更极端或语义不一致的缺失场景下其有效性值得怀疑,论文对此缺乏深入分析。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/YYYYuZJ/DSSR.git。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用的是公开的标准基准数据集(CMU-MOSI, CMU-MOSEI, IEMOCAP),如何获取未在论文中说明,通常需遵循各数据集官方协议。 Demo:论文中未提及提供在线演示。 复现材料:论文中提供了一些实现细节(优化器、学习率、批大小、Dropout率),但缺乏训练轮数、具体硬件、关键超参数(如MHDW的头数h)的详细说明,也未提及是否提供训练好的检查点、详细配置文件或附录说明。 论文中引用的开源项目:论文未明确列出其代码依赖的具体开源工具或模型。根据架构图推测,可能使用了预训练的wav2vec、DeBERTa、MA-Net作为各模态的特征提取器,但未在文中引用。 📌 核心摘要 问题:多模态情感识别(MER)在实际部署中常面临模态缺失问题(如传感器故障),导致关键情感信号(尤其是微妙线索)丢失或模糊。现有注意力方法易受主导但无关信号干扰,难以捕获细微但有辨别力的线索。 方法核心:提出DSSR(解耦显著与细微表征)两阶段框架。第一阶段,通过动态对比学习在完整模态数据上训练通用编码器,提取跨模态不变的“显著”情感表征。第二阶段,针对缺失模态场景,先利用轻量生成模块补全缺失模态特征;然后,将显著表征作为自适应提示,通过多头动态加权(MHDW)机制,在多个子空间中评估并选择性地增强各模态的“细微”情感表征。 创新点:相较于现有直接融合或恢复缺失模态的方法,DSSR首次将情感表征显式分解为“显著”和“细微”两部分,并设计了针对性的学习机制(动态对比学习提取显著表征,MHDW增强细微表征)来分别处理,框架设计新颖。 主要实验结果:在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集的多种模态缺失场景(如仅声学、仅文本、缺两模态等)下,DSSR整体性能达到了SOTA。例如,在CMU-MOSI上,平均准确率/F1为75.86%/75.05%,优于次优方法P-RMF(76.71%/未提供)。消融实验证实,去除MHDW模块导致性能下降最大(如CMU-MOSI平均准确率下降2.82%)。 实际意义:该方法提高了MER系统在传感器故障、数据传输不完整等现实挑战下的可靠性,增强了其在人机交互、情感计算等应用中的实用性。 主要局限性:生成模块(GM)的补全能力依赖于其他模态的“线性聚合”假设,其对于复杂或语义冲突的缺失情况可能效果有限,论文未对此进行深入探讨和验证。 🏗️ 模型架构 DSSR是一个两阶段框架,其整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 363 words

ICASSP 2026 - 情感识别 论文列表

ICASSP 2026 - 情感识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 APKD: Aligned And Paced Knowledge Distillation Towards Light 7.5分 前25% 🥈 DSSR: Decoupling Salient and Subtle Representations Under Mi 7.5分 前25% 📋 论文详情 🥇 APKD: Aligned And Paced Knowledge Distillation Towards Lightweight Heterogeneous Multimodal Emotion Recognition ✅ 7.5/10 | 前25% | #情感识别 | #知识蒸馏 | #多模态模型 #语音情感识别 👥 作者与机构 第一作者:Yujian Sun(山东理工大学计算机科学学院) 通讯作者:Shanliang Yang(山东理工大学计算机科学学院,yangshanliang@sdut.edu.cn) 作者列表:Yujian Sun(山东理工大学计算机科学学院),Bingtian Qiao(福州大学莫纳什大学联合国际学院),Yiwen Wang(福州大学莫纳什大学联合国际学院),Shanliang Yang(山东理工大学计算机科学学院) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 154 words

Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition

📄 Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition #多模态模型 #混合专家 #跨模态 #情感识别 ✅ 6.5/10 | 前25% | #多模态模型 | #混合专家 | #跨模态 #情感识别 学术质量 8.0/7 | 选题价值 6.0/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Huan Zhao(湖南大学计算机科学与电子工程学院) 通讯作者:Kehan Wang(湖南大学计算机科学与电子工程学院,邮箱:wangkh@hnu.edu.cn) 作者列表:Huan Zhao(湖南大学计算机科学与电子工程学院),Ling Xiong(湖南大学计算机科学与电子工程学院),Kehan Wang(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 这篇论文的“选择性Hub融合”机制确实巧妙地解决了直接跨模态注意力带来的计算冗余和噪声放大问题,像一个精准的路由器;但其“模态异质专家”的设计相对直观,主要差异在于使用1D卷积处理音频、2D卷积处理视觉,对于是否真正深刻捕捉了模态特异性情感模式的论证稍显薄弱,更像是一种工程上的有效组合而非理论洞察。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用的是公开数据集CMU-MOSI和CMU-MOSEI,但未提供论文自身的数据集。 Demo:未提及。 复现材料:论文提供了部分训练细节(如优化器、学习率、批大小、Hub大小、专家数量),但未提供完整的配置文件、训练脚本或附录中的详细复现步骤。 论文中引用的开源项目:提到了预训练模型RoBERTa,以及特征提取工具COVAREP和FACET。 总体而言,论文中未提及明确的开源计划。 📌 核心摘要 要解决什么问题:现有方法在进行多模态情感识别时,直接融合音频和视觉模态会引入大量冗余和噪声(如环境噪音、背景运动),同时传统方法忽略了不同模态对情感识别的差异性贡献,导致单模态情感特征提取不足。 方法核心是什么:提出SH-MHMoE模型,包含两个核心模块:a) 选择性Hub中介融合(SHMF):引入少量(L=8)容量受限的Hub token作为中间枢纽,所有跨模态信息交换都必须经过这些Hub,通过路径约束过滤冗余信息。b) 多模态异构混合专家(MHMoE):为文本、音频、视觉分别设计结构不同的专家网络(MLP、1D卷积、2D卷积),并通过稀疏门控网络激活少量专家,以增强每个模态独特的情感表达能力。 与已有方法相比新在哪里:a) 相比直接跨模态注意力、特征拼接等融合方式,SHMF通过Hub token实现了更高效、低冗余的信息交换。b) 相比使用同质专家(如所有模态都用FFN)的MoE方法,MHMoE针对不同模态信号特点设计了异构专家,更符合归纳偏置。 主要实验结果如何:在CMU-MOSI数据集上,SH-MHMoE在ACC-2(88.2%)、F1(88.1%)上超越所有对比方法,MAE(0.691)最低;在CMU-MOSEI数据集上,Corr(0.798)、ACC-2(87.6%)、F1(87.5%)、ACC-7(56.1%)均为最佳,MAE(0.516)次佳。 关键实验对比表(CMU-MOSI): 模型 MAE ↓ Corr ACC-2% F1% MMA 0.693 0.803 86.4 86.4 Ours 0.691 0.797 88.2 88.1 关键实验对比表(CMU-MOSEI): 模型 MAE ↓ Corr ACC-2% F1% — — — — — AcFormer 0.531 0.786 86.5 85.8 Ours 0.516 0.798 87.6 87.5 消融实验(CMU-MOSEI):移除SHMF或MHMoE模块都会导致性能明显下降,验证了模块有效性。替换SHMF为其他融合方式或MHMoE为同构专家,性能均不如原设计。 实际意义是什么:为多模态情感识别提供了一个更鲁棒、高效的融合框架,能够抑制噪声并挖掘各模态特有情感信息,对提升人机交互、心理健康分析等应用的性能有直接帮助。 主要局限性是什么:论文未讨论模态缺失情况下的鲁棒性;Hub token的具体选择和更新机制还有优化空间;异构专家的设计更多是基于模态信号特性的直观工程选择,缺乏更深入的理论分析。 🏗️ 模型架构 整体架构(参考图1a):输入为文本(Xt)、音频(Xa)、视频(Xv)特征,首先通过一个选择性Hub中介融合(SHMF)模块进行跨模态信息交互,生成增强后的各模态特征(̂Xt, ̂Xa, ̂Xv)。然后,这些特征分别输入多模态异构混合专家(MHMoE)模块进行进一步的情感特异性增强。最后,将增强后的各模态特征与Hub token连接,送入分类器得到最终预测。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 460 words