ICASSP 2026 - 跨模态

2 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Dynamic Balanced Cross-Modal Attention with Gated Sequence R7.5分前25%
🥈UVT-LM: Unifying Visual and Tactile Perception with Language7.0分前25%

📋 论文详情

🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis

7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性

👥 作者与机构

  • 第一作者:Rong Geng†(† 西安理工大学网络计算与安全陕西省重点实验室)
  • 通讯作者:Qindong Sun‡(‡ 西安交通大学网络科学与工程学院;带⋆符号)
  • 作者列表:
    1. Rong Geng†(西安理工大学网络计算与安全陕西省重点实验室)
    2. Qindong Sun†,‡,⋆(†西安理工大学网络计算与安全陕西省重点实验室;‡西安交通大学网络科学与工程学院)
    3. Han Cao†(西安理工大学网络计算与安全陕西省重点实验室)
    4. Xiaoxiong Wang†(西安理工大学网络计算与安全陕西省重点实验室)

💡 毒舌点评

亮点:论文针对MSA领域实际部署中的两大“拦路虎”——模态缺失与模态不平衡——给出了清晰、模块化的解决方案(GSR + DBCA),并在广泛实验中证明了其有效性,特别是在不完整模态下的性能提升显著。 短板:技术方法的创新深度有限,核心模块(如GSR的门控融合、DBCA的熵正则化)在动机和设计上略显直觉化,缺乏更深刻的理论分析或与其他更强大生成式修复方法的深入对比。

📌 核心摘要

本文旨在解决多模态情感分析(MSA)在实际应用中因模态不完整(如图像模糊、语音噪声)和模态不平衡(模型过度依赖主导模态)而导致的性能下降问题。为此,作者提出了DBCA-GSR框架,其核心由两部分构成:1)门控序列恢复(GSR)模块,它利用全局上下文注意力从其他可用模态中重建缺失模态的特征序列,并通过门控机制动态融合重建特征与原始不完整特征;2)动态平衡跨模态注意力(DBCA)模块,它通过一个三模态注意力架构促进特征级的跨模态交互,并引入基于熵的软正则化损失来最小化注意力分布与均匀分布之间的KL散度,从而防止模型过度关注主导模态。与以往使用静态映射的生成模型或依赖固定规则/复杂级联网络的平衡方法相比,本工作将动态恢复与显式注意力平衡相结合。在CMU-MOSI和CMU-MOSEI基准数据集上的实验表明,DBCA-GSR在完整和不完整模态设置下均优于或匹配现有最先进方法。特别是在平均缺失率从0.0到0.9的不完整设置下,DBCA-GSR在多项指标上取得了最佳性能,例如在CMU-MOSI上,7分类准确率(Acc-7)比最强基线高出2.3%。该工作的实际意义在于提高了MSA模型在真实世界噪声环境下的鲁棒性和可靠性。主要局限性在于模块设计相对直接,且实验仅限于两个情感分析数据集,其泛化到其他多模态任务的能力有待验证。


🥈 UVT-LM: Unifying Visual and Tactile Perception with Language Model

7.0/10 | 前25% | #跨模态 | #多模态模型 | #音频分类 #大语言模型

👥 作者与机构

  • 第一作者:Jinlin Wang(四川大学,合成视觉国家重点实验室)
  • 通讯作者:Hongyu Yang(四川大学计算机学院),Yulong Ji(四川大学航空航天学院)
  • 作者列表:Jinlin Wang(四川大学合成视觉国家重点实验室)、Hongyu Yang(四川大学计算机学院)、Yulong Ji(四川大学航空航天学院)

💡 毒舌点评

亮点:该工作巧妙地将大语言模型(LLM)作为“语义粘合剂”,用文本查询引导将视觉、触觉图像、音频、压力等异构信号映射到共享语义空间,这种设计思路在解决多模态对齐难题上具有启发性,且实验中的跨数据集零样本性能(51.85%)证明了其泛化潜力。 短板:论文在实验部分声称“outperforming state-of-the-art methods”,但未清晰说明其对比的基线方法(如MTF, MViTac)是否真正代表了当前最优水平;更关键的是,作为一篇方法论文,其训练细节(如LLM如何参与训练、所有超参数)近乎完全缺失,这严重削弱了研究的可复现性和工程参考价值,无异于“只给菜谱不给火候”。

📌 核心摘要

  1. 要解决的问题:现有机器人视觉-触觉融合方法受限于特定传感器配对,且难以有效融合异构的触觉信号(如图像、音频、压力)与视觉输入,制约了通用化多模态感知能力的发展。
  2. 方法核心:提出UVT-LM框架,采用四阶段流程:1) 使用模态特定编码器将各类输入转化为特征;2) 通过“模态语义映射器”,以文本查询生成的Key,引导视觉和触觉特征通过交叉注意力对齐到共享语义空间;3) 利用预训练的Llama2-7B作为“语义编码器”进一步处理融合特征;4) 通过任务头进行预测。
  3. 与已有方法相比新在哪里:首次提出一个统一架构,能够处理包括触觉图像、音频、压力在内的多种异构触觉信号,并利用LLM的预训练知识进行语义级对齐,而非传统的特征级简单拼接或对比学习。
  4. 主要实验结果:在物体识别(Au数据集,89.58%)、材料分类(Au数据集95.83%,PHAC-2数据集85.05%)和抓取结果预测(Calandra数据集98.82%)任务上,UVT-LM的准确率均优于所对比的基线方法。在跨数据集零样本迁移(Jianhua数据集)中,达到51.85%的准确率,显著高于随机初始化模型(SNAP, 36.46%)。关键对比结果如下表所示:
任务数据集指标UVT-LM最强基线差距
物体识别Au准确率(%)89.58CRNN: 88.89+0.69
材料分类Au准确率(%)95.83C2M: 88.92+6.91
材料分类PHAC-2准确率(%)85.05C3: 76.19+8.86
抓取预测Calandra准确率(%)98.82MoCo: 81.83+16.99
零样本迁移Jianhua准确率(%)51.85SNAP: 36.46+15.39
  1. 实际意义:为机器人感知提供了一种更通用、可扩展的多模态融合框架,使机器人能利用更丰富的触觉信号理解环境与操作对象,有望提升其在复杂物理交互任务中的鲁棒性和适应性。
  2. 主要局限性:1) 训练细节(超参数、硬件、策略)完全缺失,严重影响可复现性;2) 实验对比的基线方法是否全面代表了各任务的最先进水平存疑;3) 未探讨模型效率、推理延迟等在实际机器人部署中的关键问题。