From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS

📄 From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS #音频场景理解 #跨模态 #多任务学习 #音频大模型 ✅ 7.5/10 | 前25% | #音频场景理解 | #多任务学习 | #跨模态 #音频大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuhang Jia(南开大学计算机学院TMCC) 通讯作者:Shiwan Zhao(南开大学计算机学院TMCC,Email: zhaosw@gmail.com) 作者列表:Yuhang Jia(南开大学计算机学院TMCC)、Xu Zhang(南开大学计算机学院TMCC)、Yujie Guo(南开大学计算机学院TMCC)、Yang Chen(南开大学计算机学院TMCC)、Shiwan Zhao(南开大学计算机学院TMCC) 💡 毒舌点评 这篇论文用一个直觉上更“温和”、更符合预训练目标的共性描述任务,漂亮地“击败”了看似更具挑战性但可能“用力过猛”的差异描述任务,证明在多模态大模型微调中,“顺毛捋”有时比“找不同”更有效且稳健。不过,其共性描述的生成规则(尤其是替换操作)依赖于简单的字面重叠,可能在面对更复杂、语义更抽象的音频对时显得脆弱,这限制了该方法向更通用方向发展的潜力。 📌 核心摘要 这篇论文旨在解决多模态大语言模型(MLLM)在采用音频差异描述(ADC)任务进行微调时,因输出与预训练目标不匹配而导致的语义差距和灾难性遗忘问题。为此,作者提出了一种新的训练范式——音频共性描述(ACC),该任务引导模型学习并描述成对音频之间的共享语义,而非差异。与基于音频混合的数据构建方法(源自音频编辑任务)相结合,ACC提供了一个与标准音频描述(AC)更一致的训练目标。主要实验结果表明,在Qwen2-Audio模型上,ACC在AudioCaps和Clotho基准测试上的多个指标(如CIDEr-D, SPIDEr)均显著优于仅用AC或ADC微调的方法。同时,ACC在下游语音和音乐任务(如人声分类、情感识别、乐器分类)上表现出更强的通用能力保留,避免了ADC导致的性能下降。该工作的核心意义在于,提出了一个更鲁棒的音频文本跨模态对齐训练策略,平衡了任务专用性能与模型通用性。其主要局限性在于,用于构建共性描述的规则(如替换操作中提取最长连续重叠短语)可能过于简单,无法处理所有复杂的语义对齐情况,且实验评估主要集中在描述任务,对更细粒度的跨模态推理能力验证不足。 🏗️ 模型架构 论文未提出全新的模型架构,而是将一种新的训练范式应用于现有的多模态大语言模型。其核心在于如何微调模型以完成新任务。 整体流程如图2所示: 输入:一个固定的文本提示(Prompt)和两段音频。对于ACC任务,提示为“Tell me the similarities between the two audios.”;对于ADC任务,提示为“Tell me the difference between the second audio and the first one.”。 基座模型:采用Qwen2-Audio-7B作为多模态大语言模型。该模型本身整合了音频编码器和文本解码器,并支持多音频输入,为执行ACC/ADC任务提供了架构基础。 适配方法:采用LoRA(Low-Rank Adaptation) 进行参数高效微调。在训练时,只有LoRA添加的低秩适配矩阵被更新,而模型主干参数保持不变(图中“LoRA”模块所示)。 输出:模型生成针对任务的文本响应。对于ACC,输出描述两段音频共享内容的自然语言句子;对于ADC,输出描述两者差异的句子。 这种架构选择(使用现有强大MLLM)和训练策略(LoRA)是当前高效适配大模型的主流方式,论文的创新点不在于模型本身,而在于设计了新的任务(ACC)来微调这个架构,使其获得更好的音频文本对齐能力。 ...

2026-04-29

HarmoNet: Music Grounding by Short Video via Harmonic Resample and Dynamic Sparse Alignment

📄 HarmoNet: Music Grounding by Short Video via Harmonic Resample and Dynamic Sparse Alignment #音乐检索 #跨模态 #注意力机制 #对比学习 ✅ 7.0/10 | 前25% | #音乐检索 | #注意力机制 | #跨模态 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Yaomin Shen(浙江大学南昌研究院XR系统应用研究中心) 通讯作者:未明确说明,但第一作者Y. Shen提供了邮箱 coolshennf@gmail.com。 作者列表: Yaomin Shen(浙江大学南昌研究院XR系统应用研究中心) Wei Fan(独立研究员) Haichuan Hu(阿里云) Xinqi Liu(香港大学工程学院) Min Yang(浙江大学南昌研究院XR系统应用研究中心) Rui Jia(华东师范大学上海人工智能教育研究院) Junbiao Cai(独立研究员) 💡 毒舌点评 亮点:论文针对“短视频配乐”这一具体场景的痛点分析透彻,HRM的多尺度音乐重采样与DSA的动态稀疏注意力机制设计巧妙,且实验消融做得非常扎实,充分验证了每个组件的贡献。 短板:任务定义非常垂直,研究成果的普适性有待观察;更关键的是,作为一篇方法论论文,完全没有提供代码或模型开源计划,这在2026年的顶会上显得有些“古典”,严重制约了工作的影响力和可复现性。 📌 核心摘要 问题:本文致力于解决“短视频音乐定位”(MGSV)任务,即给定一个短视频,自动从候选音乐库中不仅匹配最合适的音乐曲目,还要定位出该曲目中最适合做背景音乐的时间片段。现有方法忽略了音乐旋律的多尺度特性和节奏变化导致的序列重要性动态变化。 方法:提出了HarmoNet框架,包含两个核心模块:谐波重采样模块和动态稀疏对齐策略。 创新点:HRM将音乐信号在多个时间尺度上重采样为不同层级的表征,以捕捉全局旋律、片段结构和细粒度节奏,并与视频特征进行层级匹配。DSA策略结合可学习的高斯偏置和TopK稀疏选择,动态地强调重要的跨模态对应关系,抑制噪声,提升定位精度。 实验结果:在MGSV-EC基准上,HarmoNet在所有指标上超越了先前的SOTA方法MaDe。具体提升如下表所示: 模型 mIoU↑ R1↑ R5↑ R10↑ MoR1↑ MoR10↑ MoR100↑ MaDe (基线) 0.725 8.9 16.7 18.9 8.3 17.5 30.9 HarmoNet (Ours) 0.735 10.7 19.5 22.8 9.6 19.7 32.8 表:HarmoNet与基线方法MaDe在MGSV-EC基准上的关键结果对比。 消融实验(如表2所示)证明了HRM对音乐检索(MoR指标)至关重要,而DSA对片段定位(mIoU)有显著提升。 实际意义:该方法有望提升短视频创作平台的自动化配乐效率,增强内容表达力和观众参与度。 主要局限性:任务场景相对特定,对更广泛的音视频理解任务的迁移性未验证;未开源代码和模型,限制了其实际应用和学术复现。 🏗️ 模型架构 HarmoNet整体架构可分为三个阶段(参考图2): ...

2026-04-29

ICASSP 2026 - 跨模态 论文列表

ICASSP 2026 - 跨模态 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence R 7.5分 前25% 🥈 UVT-LM: Unifying Visual and Tactile Perception with Language 7.0分 前25% 📋 论文详情 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis ✅ 7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性 👥 作者与机构 第一作者:Rong Geng†(† 西安理工大学网络计算与安全陕西省重点实验室) 通讯作者:Qindong Sun‡(‡ 西安交通大学网络科学与工程学院;带⋆符号) 作者列表: Rong Geng†(西安理工大学网络计算与安全陕西省重点实验室) Qindong Sun†,‡,⋆(†西安理工大学网络计算与安全陕西省重点实验室;‡西安交通大学网络科学与工程学院) Han Cao†(西安理工大学网络计算与安全陕西省重点实验室) Xiaoxiong Wang†(西安理工大学网络计算与安全陕西省重点实验室) 💡 毒舌点评 ...

2026-04-29

Inter-Dialog Contrastive Learning for Multimodal Emotion Recognition in Conversations

📄 Inter-Dialog Contrastive Learning for Multimodal Emotion Recognition in Conversations #语音情感识别 #对比学习 #多模态模型 #跨模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Dong-Hyuk Lee (Department of Electronics and Communications Engineering, Kwangwoon University) 通讯作者:Young-Seok Choi (Department of Electronics and Communications Engineering, Kwangwoon University, yschoi@kw.ac.kr) 作者列表:Dong-Hyuk Lee (Department of Electronics and Communications Engineering, Kwangwoon University)、Dae Hyeon Kim (Department of Electronics and Communications Engineering, Kwangwoon University)、Young-Seok Choi (Department of Electronics and Communications Engineering, Kwangwoon University) 💡 毒舌点评 亮点在于提出了“跨对话上下文”(Inter-dialog context)这一新颖维度,并设计了IDCL对比学习框架来有效利用它,为传统上仅关注对话内部的上下文建模提供了补充。短板在于方法创新的深度略显不足,核心是对比学习在模态间和对话间的应用组合,且论文缺少代码和模型细节,使得复现存在不确定性。 ...

2026-04-29

KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

📄 KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation #音频生成 #扩散模型 #跨模态 #关键帧检测 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #跨模态 #关键帧检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tianle Lyu†, Junchuan Zhao†(论文中标注†表示同等贡献) 通讯作者:Ye Wang⋆(新加坡国立大学计算学院, wangye@comp.nus.edu.sg) 作者列表:Tianle Lyu(新加坡国立大学计算学院)、Junchuan Zhao(新加坡国立大学计算学院)、Ye Wang(新加坡国立大学计算学院) 💡 毒舌点评 亮点在于将语音特征显式解耦为表情和头部姿势两个独立路径进行建模,这一设计思路抓住了面部动作驱动的核心差异,实验也证实了其有效性;但短板在于对“关键帧”的选择和建模仍依赖于启发式规则(基于真值帧间变化的阈值),其自回归预测模块的鲁棒性和泛化边界未得到充分探讨。 📌 核心摘要 问题:现有音频驱动面部动画方法通常将语音特征视为一个整体,忽略了其对表情(高频变化)和头部姿势(低频变化)的差异化驱动作用,同时未能有效建模运动中的关键动态帧。 方法:提出KSDiff框架,核心包括:(1) 双路径语音编码器(DPSE),利用多尺度扩张卷积和Prosody信息,将语音特征解耦为表情相关和头部姿势相关两个分支;(2) 关键帧建立学习(KEL)模块,通过自回归Transformer预测运动最剧烈的帧;(3) 基于DiffSpeaker的双路径扩散生成器,分别合成表情和头部姿势系数。 创新:主要创新在于明确提出并实现了语音特征的“解耦”处理,以及引入了数据驱动的、具有物理意义的关键帧预测模块,将两者协同融入扩散生成流程。 实验:在HDTF和VoxCeleb数据集上,KSDiff在多项指标上优于或媲美SOTA方法。例如,在HDTF测试集上,其LVE(唇部顶点误差)降至4.835×10⁻⁵ mm,LSE-C(同步置信度)提升至0.708,头部姿势Diversity(多样性)达0.318,Beat Align(节奏对齐)达0.354(表1)。消融研究(表3)证明,移除语音特征分离、双路径扩散、关键帧或韵律模块均会导致性能下降。 意义:该工作推动了音频驱动面部动画向更精细化、物理一致性的方向发展,为虚拟人生成提供了更逼真的运动控制方案。 局限性:关键帧提取依赖于真值运动序列的后处理,其在线预测性能上限受限;对极端或非常规的面部表情与头部运动组合的生成能力未做深入探讨。 🏗️ 模型架构 KSDiff的整体架构如图2所示。系统接收原始音频 a1:N 和转录文本 x1:L 作为输入。 双路径语音编码器 (DPSE): ...

2026-04-29

LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis

📄 LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis #多模态模型 #语音情感识别 #跨模态 #对比学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiaxun Li(浙江大学) 通讯作者:Yuehai Wang(浙江大学) 作者列表:Jiaxun Li(浙江大学)、Yuanpeng Wang(未说明)、Wei Li(未说明)、Jiale Chen(未说明)、Yuehai Wang*(浙江大学) 💡 毒舌点评 这篇论文清晰地瞄准了多模态情感分析中“文本强势、音视频弱势”的经典痛点,提出的渐进式音视频融合策略思路直接且有效,消融实验也扎实地证明了每个模块的贡献。然而,其创新更多是现有模块(如词典增强、交叉注意力、对比学习损失)的巧妙组合与针对性调优,缺乏根本性的架构突破,且在处理更复杂的模态交互或缺失场景时未见讨论。 📌 核心摘要 本文针对多模态情感分析(MSA)中不同模态(文本、音频、视觉)信息密度不平衡导致的融合难题,提出了一种名为LETPAV的轻量化框架。其核心方法是:1) 设计了一个词典增强与上下文门控的文本编码器(LECT),通过引入外部情感词典的极性先验和同义词扩展,并结合上下文门控机制,来增强文本特征的情感敏感度,使其作为语义锚点;2) 提出了渐进式音视频融合策略(PAVF),通过多层跨模态注意力逐步对齐并融合音频和视觉特征,形成一个紧凑的联合表征,再与增强文本进行通道注意力融合。训练时还引入了方向一致性损失和跨模态对齐损失以稳定模型。在CMU-MOSI和CMU-MOSEI两个主流基准数据集上的实验表明,LETPAV在多个指标上(如CMU-MOSI上MAE降至0.692,Corr提升至0.840)取得了优于或可比于当前最先进方法(SOTA)的成绩。该工作的实际意义在于为多模态融合中的信息不平衡问题提供了一种简单有效的解决方案,潜在可用于情感计算、人机交互等领域。其主要局限性可能在于未探索模型在更复杂场景(如模态缺失、长序列)下的鲁棒性,且词典的引入可能带来外部知识偏差。 🏗️ 模型架构 LETPAV模型的整体框架如图1所示,其处理流程和主要组件如下: 输入与特征提取: 输入为三元组 U = (Ut, Ua, Uv),分别代表文本、音频和视觉的原始输入。 视觉和音频:分别使用FACET和COVAREP工具包提取帧级特征 Xv 和 Xa,然后输入单向LSTM编码器,捕获时序依赖关系,得到序列表示 Hv 和 Ha。 文本:使用预训练BERT模型对原始文本 Ut 进行编码,得到上下文化的词级表示 Ht。 词典增强文本编码(LECT)模块: ...

2026-04-29

Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

📄 Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study #音频深度伪造检测 #多模态模型 #监督微调 #跨模态 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Songjun Cao(腾讯优图实验室) (注:论文中注明与Yuqi Li贡献均等) 通讯作者:未说明 作者列表:Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ (¹ 腾讯优图实验室, ² 复旦大学) 💡 毒舌点评 亮点:将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”,利用现成的顶级多模态大模型(Qwen 2.5 Omni)作为骨架,通过两阶段微调迅速达到了领域内顶尖水平,证明了LMM在多媒体取证中的巨大潜力。 短板:作为一篇方法论论文,其核心创新(SFT LMM)对基础模型架构的依赖性极强,且未提供任何开源资源(代码、模型、训练脚本),使得“复现即正义”的学术圈同仁难以验证和跟进,更像是一个概念验证(Pilot Study)。 📌 核心摘要 要解决的问题:现代生成模型制造的音视频深度伪造内容日益逼真,现有的多模态检测器多为任务特定的小模型,存在泛化能力弱、跨域性能差的问题。 方法核心:提出AV-LMMDetect,首次将监督微调的大型多模态模型(基于Qwen 2.5 Omni)用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答:“这个视频是真实的还是伪造的?”。训练采用两阶段策略:第一阶段通过LoRA对语言模型部分进行轻量级对齐;第二阶段解冻视觉和音频编码器进行全量微调,以最大化跨模态协同效应。 与已有方法相比新在哪里:不同于传统的小型任务特定模型(如CNN/Transformer流水线)或仅处理单模态的音频LLM,本工作首次证明了经过SFT的通用大型多模态模型(LMM)能够作为统一的检测器,直接处理原始的音视频流,并展现出更强的跨模态推理和泛化能力。 主要实验结果:在FakeAVCeleb数据集上,AV-LMMDetect取得了98.02%的准确率和99.2%的AUC,与当前SOTA方法AVFF(98.6%准确率)性能相当。在更具挑战性的多语言MAVOS-DD数据集上,该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP,显著优于所有对比方法,树立了新的SOTA。消融实验表明,两阶段训练策略缺一不可。 实际意义:为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式,有望提升检测器对未知生成模型和跨语言场景的泛化能力,维护媒体内容的真实性。 主要局限性:该方法完全依赖于特定的基座大模型(Qwen 2.5 Omni),其性能受限于该模型的能力边界;训练过程可能计算成本较高;论文未提供开源实现,限制了成果的快速验证与应用。 🏗️ 模型架构 AV-LMMDetect的整体架构直接建立在已有的大型多模态模型Qwen 2.5 Omni之上。其核心思路是将音视频深度伪造检测重新表述为一个视觉问答(VQA)任务。 ...

2026-04-29

Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation

📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation #音视频语义分割 #弱监督学习 #对比学习 #跨模态 #视觉提示 ✅ 7.0/10 | 前25% | #音视频 | #对比学习 | #音视频语义分割 #弱监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Chengzhi Li(北京理工大学计算机学院) 通讯作者:Ping Jian(北京理工大学计算机学院) 作者列表:Chengzhi Li(北京理工大学计算机学院)、Heyan Huang(北京理工大学计算机学院)、Ping Jian(北京理工大学计算机学院)、Yanghao Zhou(北京理工大学计算机学院) 💡 毒舌点评 亮点:论文的“先看后听”直觉式框架设计非常巧妙,将人类感知顺序转化为模型中的“时序视觉提示”模块,有效提升了弱监督下的音频理解精度,是解决该问题的一个新颖且合理的思路。短板:作为一篇方法论论文,开源信息的完全缺失是硬伤,极大削弱了其可复现性和对社区的即时贡献,也与顶级会议推动可重复研究的目标背道而驰。 📌 核心摘要 本文旨在解决音视频语义分割(AVSS) 任务中标注成本高昂的问题。为此,作者首次提出了弱监督音视频语义分割(WSAVSS) 任务,仅使用视频级标签训练模型,以生成帧级的发声物体类别掩码。论文提出了渐进式跨模态语义对齐(PCAS) 框架,其核心包含两个模块:1)“先看后听” 模块,利用视觉特征作为提示来增强帧级音频理解;2)“先听后分割” 模块,通过实例级和令牌级的渐进式对比学习,实现从粗到细的跨模态对齐。与已有方法相比,新在:首次定义WSAVSS任务;首次在音视频分割中引入“视觉提示”来指导音频理解;设计了新颖的渐进式跨模态对比学习框架。实验结果显示,在弱监督设置下,PCAS在AVS-S4和AVS-MS3数据集上的性能大幅超越了现有弱监督基线(例如,在AVS-S4上以ViT-base为主干达到74.2 F-score 和 60.50 mIoU)。在更难的AVSS子集上,PCAS甚至达到了与全监督方法相竞争的性能(52.2 F-score, 42.07 mIoU)。其实际意义在于能够以低成本获取高质量的音视频语义分割数据,推动该技术的应用。主要局限性在于论文未开源代码,部分训练细节不完整,且实验主要在AVSS相关数据集上进行,泛化性有待进一步验证。 关键实验结果表格 表1:弱监督方法在AVS-S4和AVS-MS3上的性能对比 ...

2026-04-29

MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction

📄 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction #轻度认知障碍检测 #最优传输 #双向交叉注意力 #多模态融合 #跨模态 ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yuqin Lin(福州大学计算机与数据科学学院) 通讯作者:Jianwu Dang(中国科学院深圳先进技术研究院) 作者列表:Yuqin Lin(福州大学计算机与数据科学学院)、Jinsong Zhang(福州大学计算机与数据科学学院)、Xiao Wei(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Kai Li(中国科学院深圳先进技术研究院)、Bin Wen(天津大学智能与计算学院认知计算与应用天津市重点实验室)、Mingyang Gu(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Jianwu Dang(中国科学院深圳先进技术研究院) 💡 毒舌点评 这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐,而非仅停留在浅层特征拼接,这在方法论上是一个清晰且合理的改进。然而,其短板同样明显:整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上,这极大地限制了其结论的泛化说服力,让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 📌 核心摘要 这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求,提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐,以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性;随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比,该方法在MCI分类(UAR达到70.00%,相对基线提升显著)和MMSE分数预测(R²达到0.40,绝对提升0.05)上均取得了更优的性能。此外,论文引入了跨任务聚合策略,模拟临床评估中综合多个语言任务的做法,提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行,缺乏跨数据集、跨语言的验证,且未提供开源代码。 关键实验结果: 表1:TAUKADIAL测试集上单模态与多模态方法性能对比 方法 分类 (%) ↑ 回归 UAR F1 特异性 敏感性 RMSE ↓ MAE ↓ R² ↑ Spearman ↑ 单模态 仅音频 (Biomarkers) 49.37 48.85 49.37 49.37 2.79 2.15 0.09 0.16 仅音频 (Whisper) 54.64 54.55 54.63 54.63 2.61 1.90 0.21 0.31 仅文本 (BERT) 54.30 53.71 54.30 54.30 2.50 1.85 0.27 0.40 仅文本 (RoBERTa) 49.87 49.87 49.87 49.87 2.68 2.00 0.16 0.29 多模态 基线 56.77 56.16 56.77 56.77 2.66 1.90 0.18 0.31 CA融合 65.00 64.19 64.41 64.41 2.48 1.90 0.28 0.40 Gated CA (CogniAlign) 59.40 59.08 59.40 59.40 2.39 1.95 0.33 0.41 Gated CA (Flamingo) 61.53 60.50 61.53 61.53 2.36 1.88 0.35 0.63 MCI-OTFusion (本文) 70.00 69.31 69.42 69.42 2.26 1.73 0.40 0.47 去掉OT 67.50 66.98 67.04 67.04 2.39 1.90 0.34 0.49 去掉BiCA 67.50 66.98 67.04 67.04 2.27 1.60 0.40 0.56 表2:基于MMSE预测的MCI分类策略性能对比 ...

2026-04-29

Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis

📄 Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis #多模态模型 #对比学习 #跨模态 #情感分析 #基准测试 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #跨模态 #情感分析 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Chunlei Meng(复旦大学智能机器人与先进制造学院) 通讯作者:Chun Ouyang(复旦大学智能机器人与先进制造学院,邮箱标为*) 作者列表:Chunlei Meng(复旦大学)、Jiabin Luo(北京大学)、Pengbin Feng(南加州大学)、Zhenglin Yan(复旦大学)、Chengyin Hu(中国石油大学北京克拉玛依校区)、Zhongxue Gan(复旦大学)、Chun Ouyang(复旦大学) 💡 毒舌点评 亮点:论文对现有共享-私有分解方法中“分支不平衡”问题的诊断非常精准,提出的两个针对性模块(处理共享冗余的TSF和防止私有特征稀释的AGPR)逻辑清晰,并通过可视化证据(如t-SNE、注意力分布)有力支持了其论点。短板:整体框架模块较多,增加了理解和调参的复杂度;此外,方法在很大程度上依赖于作为基础的“标准多模态解码”阶段,对该阶段质量的敏感性未被充分探讨。 📌 核心摘要 问题:论文指出,在多模态情感分析的共享-私有分解框架中,模态异质性并未被消除,而是导致了“共享-私有分支不平衡”:共享分支积累冗余且偏向主导模态的模式,而私有分支在交互中逐渐同质化,丧失判别性。 方法核心:提出双分支再平衡框架(DBR)。它在标准多模态解码(MD)后,用时序-结构分解(TSF) 模块在共享分支中分离并自适应融合时序与结构信息,抑制冗余;用锚点引导的私有路由(AGPR) 模块在私有分支中保留模态特异性并调控跨模态借用;最后用双向再平衡融合(BRF) 模块将两个正则化后的分支进行上下文感知的集成。 创新点:与现有方法侧重于更干净的分解或更强的交互不同,DBR首次将“分支不平衡”作为统一问题进行诊断和协同治理,其创新在于提出了一套针对性的“再平衡”机制,而非简单增加交互强度。 实验结果:在CMU-MOSI、CMU-MOSEI和MIntRec三个基准上,DBR在所有评估指标上均超越了现有方法。例如,在MOSI上,DBR的Acc-7达到49.26%,比次优方法高2.18%;在MOSEI上,Acc-7达到55.62%,MAE降至0.526。消融实验显示,移除任一模块(TSF, AGPR, BRF)均会导致性能下降,其中AGPR影响最大。 实际意义:该工作为解决多模态表示学习中的信息冗余与特异性丧失提供了新的视角和有效框架,有助于提升模型对复杂情感的理解鲁棒性,对情感计算、人机交互等领域有推动作用。 主要局限性:框架由多个模块组成,增加了计算和实现的复杂性(尽管效率分析显示其每轮时间与近期SOTA相当);论文主要关注情感分析任务,方法在其他多模态任务上的泛化能力有待验证。 🏗️ 模型架构 DBR框架建立在一个标准的多模态解码(MD)阶段之上,整体流程为:多模态特征编码与解码 -> 双分支(共享/私有)再平衡 -> 双向融合与预测。 ...

2026-04-29