视觉语言模型

MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue

📄 MM-Conv: A Multimodal Dataset and Benchmark for Context-Aware Grounding in 3D Dialogue #多模态学习 #视觉语言模型 #指代表达定位 #具身对话 ✅ 6.5/10 | 前50% | #跨模态 | #跨模态 | #多模态学习 #视觉语言模型 | arxiv 学术质量 6.5/7 | 影响力 5.5/2 | 可复现性 0.3/2 | 置信度 high 👥 作者与机构 Anna Deichler, Jim O’Regan, Fethiye Irmak Dogan, Lubos Marcinek, Anna Klezovich, Iolanda Leite, and Jonas Beskow KTH Royal Institute of Technology, Stockholm, Sweden {deichler, joregan, fidogan, lubosm, annkle, iolanda, beskow}@kth.se ...

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

📄 VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation #对话情感识别 #多模态模型 #视觉语言模型 #提示工程 #可靠性建模 ✅ 7.4/10 | 前25% | #对话情感识别 | #多模态模型 | #视觉语言模型 #提示工程 | arxiv 学术质量 6.2/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Linan ZHU（浙江工业大学）通讯作者：未明确说明（论文中未标注）。作者列表：Linan ZHU（浙江工业大学），Zihao Zhai（浙江工业大学），Xiao Han（浙江工业大学），Yuqian Fu（苏黎世联邦理工学院），Xiangfan Chen（浙江工业大学），Xiangjie Kong（浙江工业大学），Guojiang Shen（浙江工业大学） 💡 毒舌点评这篇论文巧妙地将大型视觉语言模型（VLM）作为免训练的特征提取器，用于对话情感识别中的视觉线索定位，其“说话人中心”视角和“可靠性引导补全”的设计理念值得肯定。然而，其理论保证（定理1）的推导略显牵强，协方差项的解释依赖于未被严格验证的假设（如视觉置信度与损失负相关），而实验中MELD数据集上与SDT的加权F1差距微乎其微（0.52%），削弱了其“显著优于SOTA”的声明说服力。 📌 核心摘要本文针对会话情感识别（ERC）任务中，现有视觉语言模型（VLM）无法自动聚焦活跃说话人的情感视觉线索，以及视觉信号本身存在模糊性和不可靠性的问题，提出了一个两阶段框架VISAFF。核心方法是：第一阶段（SCAG），通过精心设计的提示（包括任务提示、说话人参考图像和情感语义引导）在不微调冻结VLM的情况下，引导其提取以说话人为中心的视觉情感特征；第二阶段（RGAC），根据视觉特征的可靠性，动态地从文本和声学模态中检索互补信息，以修正不可靠的视觉特征。与已有方法相比，新在利用冻结VLM的免训练能力和设计可靠性引导的自适应多模态补全机制。主要实验结果：在MELD和IEMOCAP数据集上，VISAFF在不微调VLM的前提下，加权F1分数分别达到67.12%和77.30%，优于所有未微调大模型的基线方法，其中在IEMOCAP上相比最佳基线DialogueLLM提升13.52个百分点（绝对值）。其实际意义在于为ERC提供了一种高效（无需训练VLM）且鲁棒（多模态补全）的视觉建模思路。主要局限性包括：理论分析的严密性有待加强，以及对免训练提示工程的性能上限缺乏探讨。图2展示了VISAFF的两阶段架构。第一阶段，说话人中心情感定位（SCAG）模块接收视频帧、说话人参考图像和组合提示，通过冻结的VLM提取视觉特征。第二阶段，可靠性引导情感补全（RGAC）模块以视觉特征为查询，通过交叉注意力从文本和声学特征中检索参考信息，并计算视觉可靠性分数，对视觉特征进行残差补全，最后融合多模态特征进行分类。 🔗 开源详情代码：https://anonymous.4open.science/r/speaker-2365/ 模型权重：论文中未提及具体权重获取链接。论文提到使用了 Qwen3-VL-Embedding 作为骨干视觉语言模型 (VLM)，但未提供其预训练权重的下载地址。数据集：论文中未提及具体下载链接，但明确使用了两个公开基准数据集： MELD (Multimodal EmotionLines Dataset) IEMOCAP (Interactive Emotional Dyadic Motion Capture Database) 实验遵循了这两个数据集的官方训练、验证和测试集划分。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及具体的训练配置文件、环境依赖文件或模型检查点。论文详述了框架结构、训练目标（公式 9）和算法流程（Algorithm 1），并提及所有实验在单块 NVIDIA RTX 4090 GPU 上进行。论文中引用的开源项目：论文在相关工作部分提到了多种方法，但未明确给出这些方法具体实现的代码仓库链接。文中提及的开源相关预训练模型或工具（如 RoBERTa-large、emotion2vec-large、Qwen3-VL、InternVL）也未提供官方链接。 🏗️ 方法概述和架构本文提出VISAFF，一个两阶段的说话人中心视觉情感特征学习框架，用于对话情感识别（ERC）。给定一个对话，每个话语包含视频片段、文本转录和音频片段，目标是预测情感标签。如图2所示，VISAFF由两个顺序阶段组成：说话人中心情感锚定（SCAG）和可靠性引导情感补全（RGAC）。 ...

Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval

📄 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval #视频检索 #多模态模型 #注意力机制 #视觉语言模型 #对比学习 ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dan Jiang（湖南大学计算机科学与电子工程学院）通讯作者：Bin Jiang（湖南大学计算机科学与电子工程学院，标注可能为通讯作者）作者列表：Dan Jiang（湖南大学计算机科学与电子工程学院），Bin Jiang*（湖南大学计算机科学与电子工程学院），Chao Yang（湖南大学计算机科学与电子工程学院），Jianbo Zheng（湖南大学计算机科学与电子工程学院） 💡 毒舌点评论文的亮点在于将视觉大语言模型（VLLM）生成的帧级字幕作为一种“语义高亮”工具，并与音频信号一起，通过一个精心设计的门控融合模块整合进视频表示学习，思路清晰且有效。短板在于，其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用，而非根本性的方法论突破，且在音频模态的利用上相对浅层，未能深入挖掘其时序动态特性。 🔗 开源详情代码：提供代码仓库链接：https://github.com/LexingtonJd/CAVIGATE 模型权重：论文中未提及是否公开预训练模型权重。数据集：使用的是公开数据集（ActivityNet Captions, TVR），未提供自制数据集。 Demo：未提及在线演示。复现材料：论文给出了主要超参数（推理时的α, β）、使用的VLLM（BLIP）和硬件信息（NVIDIA 4070 Ti Super），但未提供完整的训练脚本、配置文件或检查点。引用的开源项目：主要依赖的开源工具/模型包括：CLIP, Wav2Vec2, BLIP（作为VLLM），以及相关的基线方法代码（如GMMFormer等）。 📌 核心摘要问题：部分相关视频检索（PRVR）中，长视频包含大量冗余的视觉和听觉语义，而只有与查询相关的显著子集决定了相关性。现有方法平等对待所有视觉内容，且忽略音频线索，导致视频表示冗余且不全面。核心方法：提出了CAVIGATE框架，包含两个对称分支：视频-字幕（VC）分支和视频-音频（VA）分支。每个分支通过一个模态门控融合（MGF）Transformer，利用可学习的门控函数动态调节字幕或音频特征对视频帧特征的贡献，以突出显著视觉语义并融合互补音频信息，同时抑制噪声。此外，引入了一种衰减的查询多样化损失，防止同一视频的不同查询在嵌入空间中过度聚集。新意：首次将VLLM生成的帧级描述性字幕作为指导信号，显式地用于突出视频帧中的显著语义；设计了MGF模块自适应融合多模态信息；提出的衰减查询损失旨在缓解语义坍塌，鼓励模型捕获时序演变的语义。实验结果：在ActivityNet Captions和TVR两个基准测试上，CAVIGATE在大多数指标上达到了当时的最先进水平。例如，使用CLIP-ViT-B/32骨干网络时，在ActivityNet Captions上取得了R@1=15.0， SumR=184.5；在TVR上取得了R@1=26.4， SumR=231.2，显著超越了AMDNet等基线方法。消融实验验证了每个组件（VC/VA分支、MGF、查询损失）的有效性。实际意义：为从长、无剪辑视频中进行精准文本检索提供了更鲁棒的视频表示学习方案，可应用于视频内容理解、视频数据库搜索等场景。主要局限性：方法的性能部分依赖于VLLM（如BLIP）生成字幕的质量，引入了额外的计算开销；对音频的利用相对直接（Wav2Vec2编码+简单融合），未充分探索更复杂的音视频交互建模。 🏗️ 模型架构 CAVIGATE是一个双分支（VC和VA）的多模态视频表示学习框架，整体流程如图2左所示。 ...