跨模态 | 语音/音频论文速递

ICASSP 2026 - 跨模态论文列表

ICASSP 2026 - 跨模态共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence R 7.5分前25% 🥈 UVT-LM: Unifying Visual and Tactile Perception with Language 7.0分前25% 📋 论文详情 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis ✅ 7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性 👥 作者与机构第一作者：Rong Geng†（† 西安理工大学网络计算与安全陕西省重点实验室）通讯作者：Qindong Sun‡（‡ 西安交通大学网络科学与工程学院；带⋆符号）作者列表： Rong Geng†（西安理工大学网络计算与安全陕西省重点实验室） Qindong Sun†,‡,⋆（†西安理工大学网络计算与安全陕西省重点实验室；‡西安交通大学网络科学与工程学院） Han Cao†（西安理工大学网络计算与安全陕西省重点实验室） Xiaoxiong Wang†（西安理工大学网络计算与安全陕西省重点实验室） 💡 毒舌点评 ...

Inter-Dialog Contrastive Learning for Multimodal Emotion Recognition in Conversations

📄 Inter-Dialog Contrastive Learning for Multimodal Emotion Recognition in Conversations #语音情感识别 #对比学习 #多模态模型 #跨模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Dong-Hyuk Lee (Department of Electronics and Communications Engineering, Kwangwoon University) 通讯作者：Young-Seok Choi (Department of Electronics and Communications Engineering, Kwangwoon University, yschoi@kw.ac.kr) 作者列表：Dong-Hyuk Lee (Department of Electronics and Communications Engineering, Kwangwoon University)、Dae Hyeon Kim (Department of Electronics and Communications Engineering, Kwangwoon University)、Young-Seok Choi (Department of Electronics and Communications Engineering, Kwangwoon University) 💡 毒舌点评亮点在于提出了“跨对话上下文”（Inter-dialog context）这一新颖维度，并设计了IDCL对比学习框架来有效利用它，为传统上仅关注对话内部的上下文建模提供了补充。短板在于方法创新的深度略显不足，核心是对比学习在模态间和对话间的应用组合，且论文缺少代码和模型细节，使得复现存在不确定性。 ...

KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

📄 KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation #音频生成 #扩散模型 #跨模态 #关键帧检测 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #跨模态 #关键帧检测学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianle Lyu†, Junchuan Zhao†（论文中标注†表示同等贡献）通讯作者：Ye Wang⋆（新加坡国立大学计算学院， wangye@comp.nus.edu.sg）作者列表：Tianle Lyu（新加坡国立大学计算学院）、Junchuan Zhao（新加坡国立大学计算学院）、Ye Wang（新加坡国立大学计算学院） 💡 毒舌点评亮点在于将语音特征显式解耦为表情和头部姿势两个独立路径进行建模，这一设计思路抓住了面部动作驱动的核心差异，实验也证实了其有效性；但短板在于对“关键帧”的选择和建模仍依赖于启发式规则（基于真值帧间变化的阈值），其自回归预测模块的鲁棒性和泛化边界未得到充分探讨。 🔗 开源详情代码：论文提供了项目主页链接（https://kincin.github.io/KSDiff/），但论文中未明确提及代码仓库链接。模型权重：未提及公开的模型权重。数据集：训练所用HDTF和VoxCeleb是公开数据集，但论文未说明其具体预处理后的版本获取方式。 Demo：未提及。复现材料：论文提供了较为详细的训练超参数（学习率、batch size、迭代次数、优化器等）、网络结构参数（维度、层数、头数）和硬件配置（4×RTX A5000，16小时）。但未提供代码、配置文件或检查点。论文中引用的开源项目：明确引用了Wav2Vec（语音特征提取）、DECA（3D面部模型）、Whisper（文本转录）、DiffSpeaker（生成框架基础）、MR-STFT损失等开源工作或工具。 📌 核心摘要问题：现有音频驱动面部动画方法通常将语音特征视为一个整体，忽略了其对表情（高频变化）和头部姿势（低频变化）的差异化驱动作用，同时未能有效建模运动中的关键动态帧。方法：提出KSDiff框架，核心包括：(1) 双路径语音编码器（DPSE），利用多尺度扩张卷积和Prosody信息，将语音特征解耦为表情相关和头部姿势相关两个分支；(2) 关键帧建立学习（KEL）模块，通过自回归Transformer预测运动最剧烈的帧；(3) 基于DiffSpeaker的双路径扩散生成器，分别合成表情和头部姿势系数。创新：主要创新在于明确提出并实现了语音特征的“解耦”处理，以及引入了数据驱动的、具有物理意义的关键帧预测模块，将两者协同融入扩散生成流程。实验：在HDTF和VoxCeleb数据集上，KSDiff在多项指标上优于或媲美SOTA方法。例如，在HDTF测试集上，其LVE（唇部顶点误差）降至4.835×10⁻⁵ mm，LSE-C（同步置信度）提升至0.708，头部姿势Diversity（多样性）达0.318，Beat Align（节奏对齐）达0.354（表1）。消融研究（表3）证明，移除语音特征分离、双路径扩散、关键帧或韵律模块均会导致性能下降。意义：该工作推动了音频驱动面部动画向更精细化、物理一致性的方向发展，为虚拟人生成提供了更逼真的运动控制方案。局限性：关键帧提取依赖于真值运动序列的后处理，其在线预测性能上限受限；对极端或非常规的面部表情与头部运动组合的生成能力未做深入探讨。 🏗️ 模型架构 KSDiff的整体架构如图2所示。系统接收原始音频 a1:N 和转录文本 x1:L 作为输入。 ...

LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis

📄 LETPAV: Lexicon-Enhanced Text with Progressive Audio-Visual Fusion for Multimodal Sentiment Analysis #多模态模型 #语音情感识别 #跨模态 #对比学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiaxun Li（浙江大学）通讯作者：Yuehai Wang（浙江大学）作者列表：Jiaxun Li（浙江大学）、Yuanpeng Wang（未说明）、Wei Li（未说明）、Jiale Chen（未说明）、Yuehai Wang*（浙江大学） 💡 毒舌点评这篇论文清晰地瞄准了多模态情感分析中“文本强势、音视频弱势”的经典痛点，提出的渐进式音视频融合策略思路直接且有效，消融实验也扎实地证明了每个模块的贡献。然而，其创新更多是现有模块（如词典增强、交叉注意力、对比学习损失）的巧妙组合与针对性调优，缺乏根本性的架构突破，且在处理更复杂的模态交互或缺失场景时未见讨论。 🔗 开源详情代码：论文中提及“使用作者发布的官方代码在相同条件下复现”，表明代码已开源，但未在提供的文本中给出具体链接。模型权重：未提及是否公开预训练模型权重。数据集：使用CMU-MOSI和CMU-MOSEI公开数据集，未提及需额外获取。 Demo：未提供在线演示。复现材料：论文提供了详细的实验设置，包括优化器类型、各模块学习率、批大小、权重衰减、Dropout率、训练硬件（4x RTX 4090 D GPU），以及评估指标。但未说明总训练步数、调度策略等细节。论文中引用的开源项目：使用了SenticNet词典、BERT预训练模型、FACET和COVAREP特征提取工具包。 📌 核心摘要本文针对多模态情感分析（MSA）中不同模态（文本、音频、视觉）信息密度不平衡导致的融合难题，提出了一种名为LETPAV的轻量化框架。其核心方法是：1) 设计了一个词典增强与上下文门控的文本编码器（LECT），通过引入外部情感词典的极性先验和同义词扩展，并结合上下文门控机制，来增强文本特征的情感敏感度，使其作为语义锚点；2) 提出了渐进式音视频融合策略（PAVF），通过多层跨模态注意力逐步对齐并融合音频和视觉特征，形成一个紧凑的联合表征，再与增强文本进行通道注意力融合。训练时还引入了方向一致性损失和跨模态对齐损失以稳定模型。在CMU-MOSI和CMU-MOSEI两个主流基准数据集上的实验表明，LETPAV在多个指标上（如CMU-MOSI上MAE降至0.692，Corr提升至0.840）取得了优于或可比于当前最先进方法（SOTA）的成绩。该工作的实际意义在于为多模态融合中的信息不平衡问题提供了一种简单有效的解决方案，潜在可用于情感计算、人机交互等领域。其主要局限性可能在于未探索模型在更复杂场景（如模态缺失、长序列）下的鲁棒性，且词典的引入可能带来外部知识偏差。 🏗️ 模型架构 LETPAV模型的整体框架如图1所示，其处理流程和主要组件如下： ...

Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

📄 Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study #音频深度伪造检测 #多模态模型 #监督微调 #跨模态 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Songjun Cao（腾讯优图实验室）（注：论文中注明与Yuqi Li贡献均等）通讯作者：未说明作者列表：Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ （¹ 腾讯优图实验室， ² 复旦大学） 💡 毒舌点评亮点：将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”，利用现成的顶级多模态大模型（Qwen 2.5 Omni）作为骨架，通过两阶段微调迅速达到了领域内顶尖水平，证明了LMM在多媒体取证中的巨大潜力。短板：作为一篇方法论论文，其核心创新（SFT LMM）对基础模型架构的依赖性极强，且未提供任何开源资源（代码、模型、训练脚本），使得“复现即正义”的学术圈同仁难以验证和跟进，更像是一个概念验证（Pilot Study）。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开微调后的AV-LMMDetect模型权重。数据集：论文使用了公开数据集FakeAVCeleb和MAVOS-DD，并给出了引用和部分划分信息（如FakeAVCeleb使用70%/30%划分）。 Demo：未提及在线演示。复现材料：未提供训练细节、配置、检查点或附录说明。引用的开源项目：论文中明确引用了Qwen 2.5 Omni作为基座模型，以及MAVOS-DD、FakeAVCeleb等数据集。开源计划：论文中未提及开源计划。 📌 核心摘要要解决的问题：现代生成模型制造的音视频深度伪造内容日益逼真，现有的多模态检测器多为任务特定的小模型，存在泛化能力弱、跨域性能差的问题。方法核心：提出AV-LMMDetect，首次将监督微调的大型多模态模型（基于Qwen 2.5 Omni）用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答：“这个视频是真实的还是伪造的？”。训练采用两阶段策略：第一阶段通过LoRA对语言模型部分进行轻量级对齐；第二阶段解冻视觉和音频编码器进行全量微调，以最大化跨模态协同效应。与已有方法相比新在哪里：不同于传统的小型任务特定模型（如CNN/Transformer流水线）或仅处理单模态的音频LLM，本工作首次证明了经过SFT的通用大型多模态模型（LMM）能够作为统一的检测器，直接处理原始的音视频流，并展现出更强的跨模态推理和泛化能力。主要实验结果：在FakeAVCeleb数据集上，AV-LMMDetect取得了98.02%的准确率和99.2%的AUC，与当前SOTA方法AVFF（98.6%准确率）性能相当。在更具挑战性的多语言MAVOS-DD数据集上，该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP，显著优于所有对比方法，树立了新的SOTA。消融实验表明，两阶段训练策略缺一不可。实际意义：为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式，有望提升检测器对未知生成模型和跨语言场景的泛化能力，维护媒体内容的真实性。主要局限性：该方法完全依赖于特定的基座大模型（Qwen 2.5 Omni），其性能受限于该模型的能力边界；训练过程可能计算成本较高；论文未提供开源实现，限制了成果的快速验证与应用。 🏗️ 模型架构 AV-LMMDetect的整体架构直接建立在已有的大型多模态模型Qwen 2.5 Omni之上。其核心思路是将音视频深度伪造检测重新表述为一个视觉问答（VQA）任务。 ...

Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation

📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation #音视频语义分割 #弱监督学习 #对比学习 #跨模态 #视觉提示 ✅ 7.0/10 | 前25% | #音视频 | #对比学习 | #音视频语义分割 #弱监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Chengzhi Li（北京理工大学计算机学院）通讯作者：Ping Jian（北京理工大学计算机学院）作者列表：Chengzhi Li（北京理工大学计算机学院）、Heyan Huang（北京理工大学计算机学院）、Ping Jian（北京理工大学计算机学院）、Yanghao Zhou（北京理工大学计算机学院） 💡 毒舌点评亮点：论文的“先看后听”直觉式框架设计非常巧妙，将人类感知顺序转化为模型中的“时序视觉提示”模块，有效提升了弱监督下的音频理解精度，是解决该问题的一个新颖且合理的思路。短板：作为一篇方法论论文，开源信息的完全缺失是硬伤，极大削弱了其可复现性和对社区的即时贡献，也与顶级会议推动可重复研究的目标背道而驰。 🔗 开源详情论文中未提及任何开源计划、代码仓库链接、预训练模型权重或数据集获取方式。也未提供在线演示（Demo）。虽然文中提到了依赖的基线方法（如AST）和工具（如Dense CRF），但并未给出其具体使用的开源实现版本。因此，复现该工作需要读者自行实现所有模块并调试训练流程，门槛较高。 📌 核心摘要本文旨在解决音视频语义分割（AVSS）任务中标注成本高昂的问题。为此，作者首次提出了弱监督音视频语义分割（WSAVSS）任务，仅使用视频级标签训练模型，以生成帧级的发声物体类别掩码。论文提出了渐进式跨模态语义对齐（PCAS）框架，其核心包含两个模块：1）“先看后听” 模块，利用视觉特征作为提示来增强帧级音频理解；2）“先听后分割” 模块，通过实例级和令牌级的渐进式对比学习，实现从粗到细的跨模态对齐。与已有方法相比，新在：首次定义WSAVSS任务；首次在音视频分割中引入“视觉提示”来指导音频理解；设计了新颖的渐进式跨模态对比学习框架。实验结果显示，在弱监督设置下，PCAS在AVS-S4和AVS-MS3数据集上的性能大幅超越了现有弱监督基线（例如，在AVS-S4上以ViT-base为主干达到74.2 F-score 和 60.50 mIoU）。在更难的AVSS子集上，PCAS甚至达到了与全监督方法相竞争的性能（52.2 F-score， 42.07 mIoU）。其实际意义在于能够以低成本获取高质量的音视频语义分割数据，推动该技术的应用。主要局限性在于论文未开源代码，部分训练细节不完整，且实验主要在AVSS相关数据集上进行，泛化性有待进一步验证。 ...

MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction

📄 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction #轻度认知障碍检测 #最优传输 #双向交叉注意力 #多模态融合 #跨模态 ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yuqin Lin（福州大学计算机与数据科学学院）通讯作者：Jianwu Dang（中国科学院深圳先进技术研究院）作者列表：Yuqin Lin（福州大学计算机与数据科学学院）、Jinsong Zhang（福州大学计算机与数据科学学院）、Xiao Wei（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Kai Li（中国科学院深圳先进技术研究院）、Bin Wen（天津大学智能与计算学院认知计算与应用天津市重点实验室）、Mingyang Gu（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Jianwu Dang（中国科学院深圳先进技术研究院） 💡 毒舌点评这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐，而非仅停留在浅层特征拼接，这在方法论上是一个清晰且合理的改进。然而，其短板同样明显：整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上，这极大地限制了其结论的泛化说服力，让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：实验使用了公开的TAUKADIAL数据集，论文中给出了获取引用。 Demo：未提供在线演示。复现材料：论文给出了部分训练细节（如优化器、学习率、早停参数、折数），但缺少关键信息如批大小、OT的Sinkhorn迭代次数与熵系数、BiCA的MLP结构、完整的超参数列表、硬件环境和训练时长。论文中引用的开源项目：引用了开源项目Whisper和BERT作为特征提取器。论文中未提及开源计划。 📌 核心摘要这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求，提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐，以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性；随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比，该方法在MCI分类（UAR达到70.00%，相对基线提升显著）和MMSE分数预测（R²达到0.40，绝对提升0.05）上均取得了更优的性能。此外，论文引入了跨任务聚合策略，模拟临床评估中综合多个语言任务的做法，提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行，缺乏跨数据集、跨语言的验证，且未提供开源代码。关键实验结果： ...

Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis

📄 Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis #多模态模型 #对比学习 #跨模态 #情感分析 #基准测试 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #跨模态 #情感分析 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Chunlei Meng（复旦大学智能机器人与先进制造学院）通讯作者：Chun Ouyang（复旦大学智能机器人与先进制造学院，邮箱标为*）作者列表：Chunlei Meng（复旦大学）、Jiabin Luo（北京大学）、Pengbin Feng（南加州大学）、Zhenglin Yan（复旦大学）、Chengyin Hu（中国石油大学北京克拉玛依校区）、Zhongxue Gan（复旦大学）、Chun Ouyang（复旦大学） 💡 毒舌点评亮点：论文对现有共享-私有分解方法中“分支不平衡”问题的诊断非常精准，提出的两个针对性模块（处理共享冗余的TSF和防止私有特征稀释的AGPR）逻辑清晰，并通过可视化证据（如t-SNE、注意力分布）有力支持了其论点。短板：整体框架模块较多，增加了理解和调参的复杂度；此外，方法在很大程度上依赖于作为基础的“标准多模态解码”阶段，对该阶段质量的敏感性未被充分探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开的CMU-MOSI, CMU-MOSEI和MIntRec数据集，但论文未提供具体获取或预处理脚本。 Demo：未提及。复现材料：提供了详细的模型架构图（图2）、主要损失函数公式（公式2, 3, 12-14, 20-22）和部分训练超参数（batch size=128, weight decay=1e-4, Adam, 5-fold CV, patience=6）。但关键细节如学习率、特征维度、各模块具体层数/隐藏维度、损失权重\(\alpha_1, \alpha_2, \beta_1, \beta_2\)的具体取值等未说明。论文中引用的开源项目：提到了使用的预训练模型（BERT）和基础编码器（TCN），但未具体说明其来源或版本。 📌 核心摘要问题：论文指出，在多模态情感分析的共享-私有分解框架中，模态异质性并未被消除，而是导致了“共享-私有分支不平衡”：共享分支积累冗余且偏向主导模态的模式，而私有分支在交互中逐渐同质化，丧失判别性。方法核心：提出双分支再平衡框架（DBR）。它在标准多模态解码（MD）后，用时序-结构分解（TSF）模块在共享分支中分离并自适应融合时序与结构信息，抑制冗余；用锚点引导的私有路由（AGPR）模块在私有分支中保留模态特异性并调控跨模态借用；最后用双向再平衡融合（BRF）模块将两个正则化后的分支进行上下文感知的集成。创新点：与现有方法侧重于更干净的分解或更强的交互不同，DBR首次将“分支不平衡”作为统一问题进行诊断和协同治理，其创新在于提出了一套针对性的“再平衡”机制，而非简单增加交互强度。实验结果：在CMU-MOSI、CMU-MOSEI和MIntRec三个基准上，DBR在所有评估指标上均超越了现有方法。例如，在MOSI上，DBR的Acc-7达到49.26%，比次优方法高2.18%；在MOSEI上，Acc-7达到55.62%，MAE降至0.526。消融实验显示，移除任一模块（TSF, AGPR, BRF）均会导致性能下降，其中AGPR影响最大。实际意义：该工作为解决多模态表示学习中的信息冗余与特异性丧失提供了新的视角和有效框架，有助于提升模型对复杂情感的理解鲁棒性，对情感计算、人机交互等领域有推动作用。主要局限性：框架由多个模块组成，增加了计算和实现的复杂性（尽管效率分析显示其每轮时间与近期SOTA相当）；论文主要关注情感分析任务，方法在其他多模态任务上的泛化能力有待验证。 🏗️ 模型架构 DBR框架建立在一个标准的多模态解码（MD）阶段之上，整体流程为：多模态特征编码与解码 -> 双分支（共享/私有）再平衡 -> 双向融合与预测。 ...

MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models

📄 MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models #基准测试 #模型评估 #多模态模型 #跨模态 #音频检索 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #跨模态 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haohang Huang (Eastern Institute of Technology, Ningbo) 通讯作者：Rui Meng (Google AI Research) 作者列表：Haohang Huang¹, Xuan Lu¹², Mingyi Su⁴, Xuan Zhang⁵, Ziyan Jiang⁶, Ping Nie⁴, Kai Zou⁷, Tomas Pfister³, Wenhu Chen⁴, Wei Zhang (未说明), Xiaoyu Shen¹, Rui Meng³ ¹Eastern Institute of Technology, Ningbo ²Shanghai Jiao Tong University ³Google AI Research ⁴University of Waterloo ⁵NUS (National University of Singapore) ⁶UCSB (University of California, Santa Barbara) ⁷Netmind.ai 💡 毒舌点评亮点：论文敏锐地指出了当前多模态嵌入模型在“指令约束模态”这一实际应用中的关键缺陷，并构建了一个覆盖音频、智能体任务的庞大基准（MMEB-V3）和精巧的诊断数据集（OmniSET）来系统性验证这一问题，研究动机扎实，分析深入。短板：本文的核心贡献是一个“评测基准”和“诊断分析”，而非提出一个新的多模态嵌入模型或解决该问题的创新算法，这使其更像一篇扎实的“系统工程与分析”论文，而非突破性的“方法创新”论文。 ...

Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

📄 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding #音频表征学习 #对比学习 #音乐生成 #音视频 #跨模态 ✅ 7.5/10 | 前25% | #舞蹈生成 | #对比学习 | #音频表征学习 #音乐生成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xuanchen Wang（悉尼大学计算机科学学院）通讯作者：未说明作者列表：Xuanchen Wang（悉尼大学计算机科学学院）、Heng Wang（悉尼大学计算机科学学院）、Weidong Cai（悉尼大学计算机科学学院） 💡 毒舌点评亮点：论文巧妙地将“运动”作为监督信号引入音乐表征学习，提出的ECL和SRAL损失函数以及相位旋转、接触注意力等架构模块，从理论和实践上系统地弥补了现有音频模型在节奏感知上的短板，思路新颖且有效。短板：核心验证任务（舞蹈生成）的数据集（AIST++）风格相对单一，论文未探讨该表征在更广泛、更多样的音乐风格或非舞蹈类动作（如手势、体育）中的泛化能力，其“具身”的普适性有待进一步验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用AIST++数据集，但未说明是否提供该数据集或相关处理脚本。 Demo：未提及。复现材料：论文提供了详细的超参数设置（模型大小、学习率、批量大小等）和训练细节（GPU型号、优化器），但未提供完整的训练配置或检查点说明。引用的开源项目：论文引用了多个开源工作作为基线或工具，如EDGE（舞蹈生成）、wav2vec 2.0、CLAP、Wav2CLIP、Jukebox、Soft-DTW等。总体情况：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有音频表征学习模型（如基于音频-文本或音频-视觉）忽略了音乐与人类动作（尤其是舞蹈）之间内在的、本能的“具身”联系，导致学到的表征在节奏和结构信息上与运动脱节，限制了其在音乐到舞蹈生成等任务上的效果。方法核心是什么：提出MotionBeat框架，通过两个新训练目标和两个新架构模块来学习运动对齐的音乐表征。训练目标是：具身对比损失（ECL），通过引入“节奏相似但不同步”的困难负样本来增强对比学习的细粒度辨别能力；结构节奏对齐损失（SRAL），通过Soft-DTW和最优传输分别在节拍和小节级别强制对齐音频事件与运动事件。架构模块是：小节等变相位旋转，使模型对节奏的周期性变化具有等变性；接触引导注意力，让模型关注与音乐重音同步的运动瞬间。与已有方法相比新在哪里：首次将“人类运动”作为关键监督信号用于通用音乐表征学习，并针对性地设计了能捕捉周期性节奏（相位旋转）和强调关键动作（接触注意力）的架构。ECL损失也超越了标准对比学习，引入了任务相关的困难负样本。主要实验结果如何：在AIST++数据集上，MotionBeat在音乐到舞蹈生成任务上全面超越wav2vec 2.0, CLAP, Wav2CLIP, Jukebox等基线。例如，在舞蹈生成任务上，其物理合理性得分（PFC）为1.545（越低越好），节拍对齐得分（BAS）为0.27（越高越好），均优于最强基线Jukebox（PFC=1.598, BAS=0.24）。在下游任务如节拍跟踪、音乐标记、分类、情感识别和跨模态检索中也均取得最佳或具有竞争力的性能。消融实验证实了ECL、SRAL、相位旋转和接触注意力各组件的有效性。实际意义是什么：为音乐信息检索、舞蹈自动生成、音乐驱动的人机交互、音乐理解（尤其是节奏和情感层面）等领域提供了更高质量、更具“动作感”的基础音频表征，可能催生更自然、更同步的多媒体应用。主要局限性是什么：论文未讨论该框架在非舞蹈动作（如日常手势、体育运动）或更多样化音乐风格（如古典、爵士）上的泛化能力；训练依赖于高质量的配对音乐-运动数据（AIST++），数据获取门槛较高。 🏗️ 模型架构 MotionBeat是一个双流编码器框架，旨在学习与人类运动对齐的音乐嵌入表示。其整体架构如图1所示。 ...