VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

📄 VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation #对话情感识别 #多模态模型 #视觉语言模型 #提示工程 #可靠性建模 ✅ 7.4/10 | 前25% | #对话情感识别 | #多模态模型 | #视觉语言模型 #提示工程 | arxiv 学术质量 6.2/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Linan ZHU(浙江工业大学) 通讯作者:未明确说明(论文中未标注)。 作者列表:Linan ZHU(浙江工业大学),Zihao Zhai(浙江工业大学),Xiao Han(浙江工业大学),Yuqian Fu(苏黎世联邦理工学院),Xiangfan Chen(浙江工业大学),Xiangjie Kong(浙江工业大学),Guojiang Shen(浙江工业大学) 💡 毒舌点评 这篇论文巧妙地将大型视觉语言模型(VLM)作为免训练的特征提取器,用于对话情感识别中的视觉线索定位,其“说话人中心”视角和“可靠性引导补全”的设计理念值得肯定。然而,其理论保证(定理1)的推导略显牵强,协方差项的解释依赖于未被严格验证的假设(如视觉置信度与损失负相关),而实验中MELD数据集上与SDT的加权F1差距微乎其微(0.52%),削弱了其“显著优于SOTA”的声明说服力。 📌 核心摘要 本文针对会话情感识别(ERC)任务中,现有视觉语言模型(VLM)无法自动聚焦活跃说话人的情感视觉线索,以及视觉信号本身存在模糊性和不可靠性的问题,提出了一个两阶段框架VISAFF。核心方法是:第一阶段(SCAG),通过精心设计的提示(包括任务提示、说话人参考图像和情感语义引导)在不微调冻结VLM的情况下,引导其提取以说话人为中心的视觉情感特征;第二阶段(RGAC),根据视觉特征的可靠性,动态地从文本和声学模态中检索互补信息,以修正不可靠的视觉特征。与已有方法相比,新在利用冻结VLM的免训练能力和设计可靠性引导的自适应多模态补全机制。主要实验结果:在MELD和IEMOCAP数据集上,VISAFF在不微调VLM的前提下,加权F1分数分别达到67.12%和77.30%,优于所有未微调大模型的基线方法,其中在IEMOCAP上相比最佳基线DialogueLLM提升13.52个百分点(绝对值)。其实际意义在于为ERC提供了一种高效(无需训练VLM)且鲁棒(多模态补全)的视觉建模思路。主要局限性包括:理论分析的严密性有待加强,以及对免训练提示工程的性能上限缺乏探讨。 图2展示了VISAFF的两阶段架构。第一阶段,说话人中心情感定位(SCAG)模块接收视频帧、说话人参考图像和组合提示,通过冻结的VLM提取视觉特征。第二阶段,可靠性引导情感补全(RGAC)模块以视觉特征为查询,通过交叉注意力从文本和声学特征中检索参考信息,并计算视觉可靠性分数,对视觉特征进行残差补全,最后融合多模态特征进行分类。 🔗 开源详情 代码:https://anonymous.4open.science/r/speaker-2365/ 模型权重:论文中未提及具体权重获取链接。论文提到使用了 Qwen3-VL-Embedding 作为骨干视觉语言模型 (VLM),但未提供其预训练权重的下载地址。 数据集:论文中未提及具体下载链接,但明确使用了两个公开基准数据集: MELD (Multimodal EmotionLines Dataset) IEMOCAP (Interactive Emotional Dyadic Motion Capture Database) 实验遵循了这两个数据集的官方训练、验证和测试集划分。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及具体的训练配置文件、环境依赖文件或模型检查点。论文详述了框架结构、训练目标(公式 9)和算法流程(Algorithm 1),并提及所有实验在单块 NVIDIA RTX 4090 GPU 上进行。 论文中引用的开源项目:论文在相关工作部分提到了多种方法,但未明确给出这些方法具体实现的代码仓库链接。文中提及的开源相关预训练模型或工具(如 RoBERTa-large、emotion2vec-large、Qwen3-VL、InternVL)也未提供官方链接。 🏗️ 方法概述和架构 本文提出VISAFF,一个两阶段的说话人中心视觉情感特征学习框架,用于对话情感识别(ERC)。给定一个对话,每个话语包含视频片段、文本转录和音频片段,目标是预测情感标签。如图2所示,VISAFF由两个顺序阶段组成:说话人中心情感锚定(SCAG)和可靠性引导情感补全(RGAC)。 ...

2026-05-19 · 更新于 2026-05-19 · 2 min · 313 words

Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

📄 Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction #多模态模型 #医疗音频 #自洽学习 #提示工程 #动机访谈编码 ✅ 6.0/10 | 前50% | #动机访谈编码 | #自洽学习 | #多模态模型 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.6/2 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Guangzeng Han (University of Memphis, Department of Computer Science) 通讯作者:Xiaolei Huang (Department of Psychology, Washington State University Vancouver; 论文发表时隶属于University of Memphis) 作者列表:Guangzeng Han (University of Memphis), James G. Murphy (Veterans Affairs Health Care System; University of California San Francisco), Benjamin O. Ladd (University of Memphis), Xiaolei Huang (Washington State University Vancouver), Brian Borsari (Washington State University Vancouver) 💡 毒舌点评 本文将自洽推理从纯文本扩展至多模态临床编码,并设计了四种具有临床动机(内容、韵律、证据评分、对比)的提示策略,展现了在垂直领域应用大模型的工程巧思;然而,在一个仅含5个会话、898个话语的小规模数据集上,仅与两个简单的提示基线(Direct, COT)对比,且绝对性能(宏F1 < 51%)较低,严重削弱了方法“优越性”的证明力度和普适性结论,更像是一次概念验证(proof-of-concept)。 ...

2026-05-14 · 更新于 2026-05-19 · 2 min · 381 words

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

📄 Tatemae: Detecting Alignment Faking via Tool Selection in LLMs #大语言模型 #提示工程 #模型评估 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #大语言模型 | #提示工程 | #模型评估 #对抗样本 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Matteo Leonesi(University of Camerino, Department of Computer Science) 通讯作者:未明确说明(作者列表中有两位标注“Equal contribution”,即Matteo Leonesi和Francesco Belardinelli) 作者列表:Matteo Leonesi(University of Camerino, Department of Computer Science)、Francesco Belardinelli(Imperial College London, Department of Computing)、Flavio Corradini(University of Camerino, Department of Computer Science)、Marco Piangerelli(University of Camerino, Department of Computer Science) 💡 毒舌点评 这篇论文最亮眼的地方在于其“去玄学化”的努力:将对齐伪装从“推理黑箱里的阴谋论”拉回到了“可观测工具选择”的实证科学范畴,其四阶段评估管道(特别是“监控”作为唯一变量)设计堪称优雅。然而,它的“杀手锏”——那个揭示模型内心挣扎的“监控提示词”——完全依赖于精心设计的提示工程,这无异于在教科书上模拟实战;虽然降低了门槛,但也在根本上限定了其结论的适用边界,即模型是否“真的”理解并恐惧权重更新,还是只是被一段特定文本诱导出了这种输出。 ...

2026-04-30 · 更新于 2026-05-19 · 2 min · 374 words

Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

📄 Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment #语音评估 #语音大模型 #微调 #提示工程 #教育应用 ✅ 7.0/10 | 前50% | #语音评估 | #微调 | #语音大模型 #提示工程 学术质量 6.5/7 | 选题价值 5.0/2 | 复现加成 5.0 | 置信度 中 👥 作者与机构 第一作者:Ke Wang(微软,北京) 通讯作者:未说明 作者列表:Ke Wang(微软),Wenning Wei(微软),Yan Deng(微软),Lei He(微软),Sheng Zhao(微软) 💡 毒舌点评 亮点在于其系统性:不是简单地把LMM丢进APA任务,而是细致地对比了多粒度与单粒度、多方面与单方面的性能差异,并敏锐地捕捉到PCC与SCC的指标分化现象,为后续评估提供了更优视角。短板则在于“重锤打棉花”——用强大的LMM去解决音素级评估这个“硬骨头”,效果却依然不理想,暴露了当前LMM在处理极端细粒度音频-文本对齐任务上的根本局限,单纯靠微调似乎遇到了天花板。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的微调后模型权重。基座模型Qwen2-Audio是公开的。 数据集:Speechocean762是公开数据集。私有数据集未公开。 Demo:未提及。 复现材料:提供了关键的训练超参数(如LoRA rank、学习率、批次大小、优化器、SimPO的β/γ/λ值)。但未提供完整的训练脚本、配置文件、检查点或详细的数据预处理/增强代码。 论文中引用的开源项目: Qwen2-Audio:作为基座模型。 LoRA:用于参数高效微调。 SimPO:用于偏好优化。 Speechocean762:作为主要训练和评估数据集。 开源计划:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:评估并提升大型多模态模型(LMM)在自动发音评估(APA)任务中的性能,尤其是在处理多粒度(音素、单词、句子)和多方面(准确度、流利度、韵律等)评估时的能力。 方法核心是什么:以Qwen2-Audio-7B-Instruct作为基座模型,采用LoRA进行参数高效微调。设计了精细的提示(Prompt)以指导模型进行结构化多粒度评估。引入SimPO(一种无需参考模型的偏好优化)与交叉熵损失结合,进一步优化模型输出。 与已有方法相比新在哪里:相比于之前专注于单粒度(如句子级)或依赖外部音频编码器的方法,本研究系统性地探索了LMM在统一框架内同时处理多粒度多方面APA的能力。同时,首次在该任务中分析并强调了SCC(斯皮尔曼秩相关)作为评估指标的重要性,指出其比PCC更能反映模型预测的序一致性。 主要实验结果如何: 多粒度多方面(SO762数据集):微调后的模型在单词和句子级别评估上与商业系统(Azure PA)和专门模型(GOPT, HMamba)性能相当或更优(例如句子级流利度SCC:0.70 vs 商业系统0.62),但在音素级评估上存在明显差距(PCC 0.39 vs GOPT 0.29)。 单粒度单方面:性能显著提升,例如单词准确度PCC达0.62,句子流利度PCC达0.79,接近甚至超过部分基线。 指标分析(私有测试集):PCC可达0.9,表明线性相关性强;但SCC仅为0.6,揭示了模型在预测排序一致性上的不足。具体数据见表4。 实际意义是什么:证明了LMM经过微调可成为APA任务的有效且灵活的工具,尤其在句子和单词级别。为CALL系统的开发提供了新的技术路径,即利用一个统一的大模型处理复杂的多维度评估任务。对评估指标的讨论对APA乃至其他相关评分任务的评估体系构建有参考价值。 主要局限性是什么:LMM在音素级极细粒度评估上能力不足,这可能源于其内部表示与声学-音素对齐的天然疏离。模型性能严重依赖训练数据的质量和分布(如“完整度”分数因数据偏斜无法评估)。使用模拟偏好数据(SimPO)的提升有限。 🏗️ 模型架构 论文采用的框架基于Qwen2-Audio-7B-Instruct模型。这是一个开源的大型多模态模型,原生支持音频和文本输入。 ...

2026-04-29 · 更新于 2026-05-19 · 3 min · 568 words

Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition

📄 Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition #语音情感识别 #零样本 #语音大模型 #提示工程 ✅ 7.0/10 | 前25% | #语音情感识别 | #零样本 | #语音大模型 #提示工程 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未说明 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Y. Alicia Hong(George Mason University)、Ye Gao(College of William & Mary) 💡 毒舌点评 本文的亮点在于巧妙地将传统信号处理、情感分析和LLM推理整合成一个结构化的“情绪图”作为中间推理步骤,这种“组合式思维链”的设计为提升LALM在缺乏副语言特征时的推理能力提供了新颖且有效的思路,实验增益显著。但短板在于整个框架稍显笨重,依赖多个外部组件(openSMILE、RoBERTa、KeyBERT、GPT-4),其“即插即用”特性在实际部署中需协调这些组件,且论文未开源任何代码或细节,使得其宣称的便捷性和可复现性大打折扣。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:论文使用了公开的基准数据集(IEMOCAP, MELD, ESD, MERBench),但未提供数据预处理脚本。 Demo:未提及。 复现材料:论文未给出情绪图生成的完整代码、具体特征离散化阈值、GPT-4的完整提示模板、LALM推理的具体解码参数等。 论文中引用的开源项目:论文明确提到了使用的开源工具和模型:openSMILE(用于声学特征提取)、RoBERTa(用于情感分类)、KeyBERT(用于关键词提取)、Whisper(用于转录,如需要)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)在零样本语音情感识别(SER)任务中因弱副语言建模和跨模态推理能力不足而导致的性能瓶颈。论文提出了一种名为CCoT-Emo的零样本提示框架,其核心方法是构建一个结构化的“情绪图”(Emotion Graph)。该图通过数字信号处理提取七个声学特征(如音高、语速、音量、抖动、闪烁等),并利用模型提取转录文本的情感和关键词,然后通过GPT-4推断声学特征与文本情感之间的支持或冲突关系。这个图被序列化为JSON格式,作为结构化提示的一部分,引导LALM进行可组合、可解释的情绪推理。与已有的无结构化思维链(CoT)提示相比,CCoT-Emo引入了明确的符号化中间表示,减少了幻觉和错误传播。实验在Qwen2-Audio、Qwen2.5-Omni和Kimi-Audio三个模型以及IEMOCAP、MELD、ESD、MERBench五个基准上进行。结果显示,CCoT-Emo一致超越了普通零样本提示和无结构化CoT基线,平均提升7.2%到9.1%,并在ESD数据集上对Qwen2-Audio实现了14.5%的绝对精度提升。消融实验证明,情绪图中的文本属性、声学属性和跨模态关系都至关重要,且结构化JSON格式优于自由文本。该工作的实际意义在于提供了一种无需微调、可兼容多种LALM的即插即用性能提升方案。其主要局限性在于框架依赖多个外部独立组件(如openSMILE, GPT-4),流程复杂度较高,且论文未开源代码和关键实现细节。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 360 words