MCF: Text LLMS for Multimodal Emotional Causality

📄 MCF: Text LLMS for Multimodal Emotional Causality #情感分析 #多模态模型 #大语言模型 #数据集 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) 通讯作者:Yichen Li(华中科技大学);Chong Li(西安交通大学-利物浦大学);Jionglong Su(西安交通大学-利物浦大学) 作者列表: Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) Yuxuan Zhang(西安交通大学-利物浦大学) Rui Chen(西安交通大学-利物浦大学) Man Lei(西安交通大学-利物浦大学) Yibo Yuan(西安交通大学-利物浦大学) Xiwei Liu(穆罕默德·本·扎耶德人工智能大学) Runyi Lin(西安交通大学-利物浦大学) Tianrui Li(西安交通大学-利物浦大学) Mingze Jiang(西安交通大学-利物浦大学) Anyi Liu(西安交通大学-利物浦大学) Yichen Li(华中科技大学) Chong Li(西安交通大学-利物浦大学) Jionglong Su(西安交通大学-利物浦大学) 💡 毒舌点评 亮点在于其核心思想颇具巧思:与其让笨重的多模态模型学会复杂推理,不如让擅长推理的文本LLM通过一个精巧的“翻译框架”(MCF)来“看懂”和“听懂”视频音频,最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件(如DFER-CLIP, SenseVoice),在完全不同的文化背景、视频风格或对话场景下是否依然有效,是个巨大的问号,论文并未提供跨域泛化的证据。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 334 words

MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning

📄 MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning #语音情感识别 #强化学习 #多模态模型 #生成模型 ✅ 7.5/10 | 前25% | #语音情感识别 | #强化学习 | #多模态模型 #生成模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haoqin Sun(南开大学计算机科学学院TMCC;阿里巴巴国际数字商务) 通讯作者:Yong Qin(南开大学计算机科学学院TMCC)、Haoqin Sun(从邮箱判断,同属上述两机构) 作者列表:Haoqin Sun¹,², Chenyang Lyu²,, Xiangyu Kong³, Shiwan Zhao¹, Jiaming Zhou¹, Hui Wang¹, Aobo Kong¹, Jinghua Zhao¹, Longyue Wang², Weihua Luo², Kaifu Zhang², Yong Qin¹, ¹南开大学计算机科学学院TMCC ²阿里巴巴国际数字商务 ³埃克塞特大学 💡 毒舌点评 亮点:该工作巧妙地将DeepSeek-R1中GRPO的思想迁移到情感描述任务,并创新性地设计了“情感锚点空间”来计算奖励,这比简单的规则匹配或BLEU分数更能捕捉情感语义的对齐度,实验也验证了其有效性。短板:所有实验仅在一个中文数据集(EmotionTalk)上进行,且情感锚点的构建严重依赖预定义的离散情绪类别和对应词汇表,这可能限制了模型在更开放、更细微的情感描述上的泛化能力,通用性存疑。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 375 words

MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding

📄 MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding #音乐理解 #多模态模型 #大语言模型 #指令微调 ✅ 7.5/10 | 前10% | #音乐理解 | #多模态模型 | #大语言模型 #指令微调 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Meng Yang(SensiLab, Monash University, Australia) 通讯作者:未说明 作者列表:Meng Yang(SensiLab, Monash University, Australia)、Jon McCormack(SensiLab, Monash University, Australia)、Maria Teresa Llano(University of Sussex, Brighton, United Kingdom)、Wanchao Su(SensiLab, Monash University, Australia)、Chao Lei(School of Computing and Information Systems, The University of Melbourne, Australia) 💡 毒舌点评 亮点:这篇工作精准地切中了音乐AI领域的一个关键缺口——如何让大语言模型真正“读懂”结构化的MIDI数据,而非将其降级为文本片段,其提出的自动化标注管道也极具实用价值。短板:评估完全依赖于单一的古典钢琴数据集(GiantMIDI-Piano),模型在流行、爵士、电子音乐或复杂多声部管弦乐MIDI上的表现是个未知数,这大大限制了其宣称的“通用”价值。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 245 words

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs

📄 Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs #语音识别 #语音大模型 #多模态模型 #音视频 #预训练 ✅ 7.0/10 | 前25% | #语音识别 | #语音大模型 | #多模态模型 #音视频 学术质量 7.0/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Anand(不列颠哥伦比亚大学) 通讯作者:未说明 作者列表:Anand(不列颠哥伦比亚大学,加拿大)、Umberto Cappellazzo(伦敦帝国学院,英国)、Stavros Petridis(伦敦帝国学院,英国)、Maja Pantic(伦敦帝国学院,英国) 💡 毒舌点评 亮点在于从现象观察到机理分析(余弦相似度对齐)再到解决方法(去相关损失)形成了一个完整闭环,且控制旋转实验的验证相当漂亮。短板则是实验仅在单一的Llama 3.2-3B模型和有限的设置下进行,对于“该现象是否普遍存在于所有音视频LLM”以及“去相关损失是否会对模型其他能力产生副作用”这两个关键问题,论文缺乏更深入的探讨。 🔗 开源详情 代码:论文中未提及提供本研究的代码仓库链接。 模型权重:未提及公开微调后的模型权重。 数据集:未提及本研究使用的具体数据集及其获取方式。 Demo:未提及提供在线演示。 复现材料:未提供详细的训练配置、检查点或附录说明。论文提到实验细节可参考[8],但自身贡献部分的复现信息缺失。 论文中引用的开源项目: [8] Llama-AVSR:作为基础架构和实验细节的参考。 [17] LoRA:作为参数高效微调方法。 [28] AV-HuBERT:作为视频编码器。 [29] Whisper:作为音频编码器。 [31] LLaMA 3:作为基础LLM。 论文中未提及本研究的开源计划。 📌 核心摘要 本文首次研究了音视频语音识别(AVSR)大型语言模型(LLM)中存在的“注意力沉降”和“大规模激活”现象。论文发现,在微调过程中,除BOS token外,一些语义信息弱的中间token也会成为注意力沉降点,并且与BOS token在隐层空间中具有高余弦相似度,这导致了特征索引相同的大规模激活。基于此发现,作者提出了一种简单的去相关损失,通过惩罚BOS与其他token的余弦相似度来缓解这些问题。实验表明,该方法在Llama-AVSR模型上,在高音频-视频特征下采样率下能有效降低词错率(WER),例如在AVSR(16,5)设置下WER从4.15降至3.72。该方法的贡献在于为理解多模态LLM内部机制提供了新视角,并提供了一种轻量、有效的训练技巧以提升模型在压缩场景下的鲁棒性。局限性在于实验验证的LLM模型较为单一。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 229 words

Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding

📄 Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding #多模态模型 #音频问答 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #音频问答 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tianze Xia†, Hongcheng Liu† (上海交通大学) 通讯作者:Yu Wang* (上海交通大学) 作者列表:Tianze Xia†(上海交通大学), Hongcheng Liu†(上海交通大学), Lina Yang(上海交通大学), Yu Wang*(上海交通大学) 💡 毒舌点评 这篇论文的亮点在于清晰地识别出语言先验在“输入层”和“层间”的两个不同作用机制,并设计了一个优雅、即插即用的统一解码公式来同时抑制它们,在多个视觉和音频基准上取得了稳健提升。短板在于其核心论证“动态层选择”策略的理论基础和普适性略显薄弱(为何选择最大差异度层作为先验代表?),且缺少对失败案例的深入分析,使得方法更像一个“work well”的工程方案而非深刻揭示机制。 🔗 开源详情 代码:论文中未提及代码链���。 模型权重:未提及。 数据集:使用了公开基准(POPE, MSCOCO 2014, MMAU, MMAR),但论文未提及BCD方法本身是否附带新的数据集。 Demo:未提及。 复现材料:论文详细给出了BCD的算法流程(公式1-3)和关键超参数(k, n, α, β),但未提供完整的配置文件或训练/评估日志。 论文中引用的开源项目:实验基于以下开源模型:LLaVA-1.5-7B, Qwen2.5-VL-7B, Qwen2-Audio-7B-Instruct, MU-LLaMA-7B。 论文中未提及开源计划。 📌 核心摘要 要解决什么问题:多模态大语言模型(MLLM)在生成时严重依赖语言先验(文本提示和模型内部的统计规律),导致输出与视觉/音频证据不符的幻觉现象。 方法核心是什么:提出双层对比解码(BCD),一种无需训练的即插即用解码策略。它在每个解码步骤同时进行两项修正:a) 输入层修正:对比完整多模态输入和纯文本输入的输出分布,以强化多模态证据的引导;b) 层间修正:对比模型最终层输出和通过动态策略选择的中间层输出,以抑制信息在层间传播中累积的语言先验。 与已有方法相比新在哪里:现有对比解码方法(如VCD, SID)通常只关注单一来源的先验(如图像扰动或内部状态),而BCD首次将输入层和层间这两个关键阶段的先验抑制统一到一个框架内,并通过动态层选择策略自适应地定位内部先验的最强表征层。 主要实验结果如何:BCD在多个主流模型(LLaVA-1.5, Qwen2.5-VL, Qwen2-Audio, MU-LLaMA)和基准上均提升了性能。具体地,在POPE(视觉幻觉)基准上,LLaVA-1.5模型的平均准确率从83.01%提升至87.32%;在MMAR(音频理解)基准上,Qwen2-Audio模型的平均准确率从30.00%提升至36.90%。消融实验证实了两个修正组件的互补性。 模型 基准 设置 基线 Greedy (Acc./F1) BCD (Acc./F1) LLaVA-1.5 POPE Rand. 87.17 / 85.64 90.57 / 90.33 LLaVA-1.5 POPE Pop. 82.76 / 83.36 87.83 / 87.87 LLaVA-1.5 POPE Adv. 79.11 / 80.92 83.57 / 84.28 Qwen2.5-VL POPE Adv. 84.20 / 81.63 86.27 / 84.67 实际意义是什么:提供了一种实用、有效、无需额外训练的解码改进方案,可直接应用于现有MLLM,增强其输出的可靠性和可信度,对部署在医疗、安防等关键领域的多模态AI系统具有重要价值。 主要局限性是什么:a) 方法引入了额外的推理计算开销(需要运行前向传播以获取L_text和L_inter);b) 动态层选择策略的有效性可能依赖于模型结构,其普适性有待更多验证;c) 超参数α和β需要针对不同任务/模态进行调整,缺乏自动化的选择机制。 🏗️ 模型架构 本文提出的BCD并非一个新的多模态模型架构,而是一种应用于现有MLLM(如LLaVA, Qwen-VL/Audio)的解码策略。其核心架构是统一的对比解码框架,流程如下: ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 388 words

Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis

📄 Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis #多模态模型 #对比学习 #跨模态 #情感分析 #基准测试 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #跨模态 #情感分析 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Chunlei Meng(复旦大学智能机器人与先进制造学院) 通讯作者:Chun Ouyang(复旦大学智能机器人与先进制造学院,邮箱标为*) 作者列表:Chunlei Meng(复旦大学)、Jiabin Luo(北京大学)、Pengbin Feng(南加州大学)、Zhenglin Yan(复旦大学)、Chengyin Hu(中国石油大学北京克拉玛依校区)、Zhongxue Gan(复旦大学)、Chun Ouyang(复旦大学) 💡 毒舌点评 亮点:论文对现有共享-私有分解方法中“分支不平衡”问题的诊断非常精准,提出的两个针对性模块(处理共享冗余的TSF和防止私有特征稀释的AGPR)逻辑清晰,并通过可视化证据(如t-SNE、注意力分布)有力支持了其论点。短板:整体框架模块较多,增加了理解和调参的复杂度;此外,方法在很大程度上依赖于作为基础的“标准多模态解码”阶段,对该阶段质量的敏感性未被充分探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用的是公开的CMU-MOSI, CMU-MOSEI和MIntRec数据集,但论文未提供具体获取或预处理脚本。 Demo:未提及。 复现材料:提供了详细的模型架构图(图2)、主要损失函数公式(公式2, 3, 12-14, 20-22)和部分训练超参数(batch size=128, weight decay=1e-4, Adam, 5-fold CV, patience=6)。但关键细节如学习率、特征维度、各模块具体层数/隐藏维度、损失权重\(\alpha_1, \alpha_2, \beta_1, \beta_2\)的具体取值等未说明。 论文中引用的开源项目:提到了使用的预训练模型(BERT)和基础编码器(TCN),但未具体说明其来源或版本。 📌 核心摘要 问题:论文指出,在多模态情感分析的共享-私有分解框架中,模态异质性并未被消除,而是导致了“共享-私有分支不平衡”:共享分支积累冗余且偏向主导模态的模式,而私有分支在交互中逐渐同质化,丧失判别性。 方法核心:提出双分支再平衡框架(DBR)。它在标准多模态解码(MD)后,用时序-结构分解(TSF) 模块在共享分支中分离并自适应融合时序与结构信息,抑制冗余;用锚点引导的私有路由(AGPR) 模块在私有分支中保留模态特异性并调控跨模态借用;最后用双向再平衡融合(BRF) 模块将两个正则化后的分支进行上下文感知的集成。 创新点:与现有方法侧重于更干净的分解或更强的交互不同,DBR首次将“分支不平衡”作为统一问题进行诊断和协同治理,其创新在于提出了一套针对性的“再平衡”机制,而非简单增加交互强度。 实验结果:在CMU-MOSI、CMU-MOSEI和MIntRec三个基准上,DBR在所有评估指标上均超越了现有方法。例如,在MOSI上,DBR的Acc-7达到49.26%,比次优方法高2.18%;在MOSEI上,Acc-7达到55.62%,MAE降至0.526。消融实验显示,移除任一模块(TSF, AGPR, BRF)均会导致性能下降,其中AGPR影响最大。 实际意义:该工作为解决多模态表示学习中的信息冗余与特异性丧失提供了新的视角和有效框架,有助于提升模型对复杂情感的理解鲁棒性,对情感计算、人机交互等领域有推动作用。 主要局限性:框架由多个模块组成,增加了计算和实现的复杂性(尽管效率分析显示其每轮时间与近期SOTA相当);论文主要关注情感分析任务,方法在其他多模态任务上的泛化能力有待验证。 🏗️ 模型架构 DBR框架建立在一个标准的多模态解码(MD)阶段之上,整体流程为:多模态特征编码与解码 -> 双分支(共享/私有)再平衡 -> 双向融合与预测。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 335 words

Mixture of Experts for Recognizing Depression from Interview and Reading Tasks

📄 Mixture of Experts for Recognizing Depression from Interview and Reading Tasks #语音生物标志物 #混合专家模型 #多模态模型 #端到端 ✅ 6.0/10 | 前50% | #语音生物标志物 | #混合专家模型 | #多模态模型 #端到端 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Loukas Ilias(雅典国立技术大学电气与计算机工程学院 DSS实验室) 通讯作者:未说明 作者列表:Loukas Ilias(雅典国立技术大学电气与计算机工程学院 DSS实验室),Dimitris Askounis(雅典国立技术大学电气与计算机工程学院 DSS实验室) 💡 毒舌点评 亮点:这篇论文的最大亮点在于它“不满足于现状”,没有沿用只分析自发语音或简单拼接特征的常规思路,而是系统性地探索了将朗读与自发语音通过复杂的张量分解融合,并引入MoE进行“因材施教”,这种技术组合的探索精神值得肯定。 短板:然而,所有华丽的架构都建立在仅110个样本的“地基”上,导致核心结果表(表1)中各项指标的标准差(±6%~±13%)甚至比一些方法的性能提升幅度还大,这使得“我们更好”的结论显得底气不足,其声称的SOTA地位在更大数据集上能否复现要打个大大的问号。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用公开的 Androids语料库。 Demo:未提供在线演示。 复现材料:提供了基本的超参数设置(学习率、batch size、优化器、专家数量等)和硬件信息,但缺乏实现细节。 论文中引用的开源项目:librosa(用于音频处理),AlexNet(用于特征提取)。 📌 核心摘要 问题:现有抑郁症语音识别方法存在三个局限:通常只分析自发语音而忽略朗读语音;依赖难以获取或易出错的转录文本;以及未采用能根据输入内容自适应调整计算方式的模型(如MoE)。 方法:本文提出一个端到端的深度神经网络框架。它将朗读语音和自发语音(面试)分别转换为包含log-Mel频谱图及其一阶、二阶差分的三通道图像。这些图像通过两个共享权重的预训练AlexNet提取特征,得到768维向量。随后,使用基于块张量分解的BLOCK多模态融合方法将两个特征向量融合。最后,融合特征被送入混合专家层进行分类。论文对比了三种MoE变体:稀疏门控MoE、基于CP分解的CPµMoE和基于张量环分解的TRµMoE。 新意:这是首次在抑郁症识别任务中,(1)联合建模朗读与自发语音;(2)采用基于张量分解的多模态融合;(3)将输入条件计算(MoE)集成到单一端到端网络中。与之前简单使用AlexNet或拼接特征的方法相比,本文强调了更精细的特征融合与动态的专家路由。 结果:在Androids语料库(110样本)上的实验表明,本文提出的最佳模型TRµMoE达到了87.00%的准确率和86.66%的F1分数。消融实验证实了融合两种语音、使用BLOCK融合以及引入MoE层的必要性。例如,去掉MoE层后准确率下降3.31%,仅使用自发语音时准确率仅为81.73%。 意义:该工作验证了结合不同语音任务(朗读+自发)并利用更高级的融合与动态计算模型,能为抑郁症等心理健康问题的语音生物标志物检测提供更全面、更有效的建模途径。 局限:主要局限是数据集规模极小(仅110人),导致所有实验结果的标准差巨大,模型的稳定性和泛化能力未经验证。此外,研究仅基于意大利语单语种数据,缺乏跨语言验证。 🏗️ 模型架构 论文提出了一种用于抑郁症识别的多模态端到端深度神经网络架构,整体流程如下: ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 342 words

ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations

📄 ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations #语音情感识别 #多模态模型 #多任务学习 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #多任务学习 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kexue Wang(新疆大学) 通讯作者:Liejun Wang(新疆大学) 作者列表:Kexue Wang(新疆大学,联合具身智能实验室,丝绸之路多语言认知计算联合国际实验室,计算机科学与技术学院), Yinfeng Yu(新疆大学,联合具身智能实验室,丝绸之路多语言认知计算联合国际实验室,计算机科学与技术学院), Liejun Wang(新疆大学,联合具身智能实验室,丝绸之路多语言认知计算联合国际实验室,计算机科学与技术学院) 💡 毒舌点评 论文将说话人身份信息作为主动调制信号注入模型三个阶段(输入、交互、输出)的思路清晰且有效,能直观地提升对异质说话人的情感判别能力,消融实验也证实了每个模块的贡献。然而,特征可视化部分(t-SNE图)仅展示了类内紧凑、类间分离的总体趋势,未能深入剖析模型究竟是如何“解耦”说话人特征与情感特征的,这一部分论证力度较弱。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用MELD和IEMOCAP公开数据集,论文未提供数据集本身,但指明了特征来源(MultiEMO源代码提供)。 Demo:未提及在线演示。 复现材料:论文给出了实验硬件(RTX 4090)、Batch Size设置,并复现了基线模型MultiEMO作为对照。特征来源明确。但模型具体结构(如层数、维度)、优化器、学习率等训练细节未说明。 论文中引用的开源项目:引用了OpenSMILE用于特征提取,ResNet用于视觉特征提取。 总结:论文中未提及明确的开源计划。复现依赖于自行实现模型架构,并使用MultiEMO提供的特征。 📌 核心摘要 要解决什么问题:现有的多模态对话情感识别模型通常将不同说话人视为可互换的实体,忽略了个体间情感表达方式的巨大差异(即说话人异质性),导致特征错配和无效融合,影响了识别精度,尤其对少数情感类别效果不佳。 方法核心是什么:提出多层说话人自适应网络(ML-SAN)。其核心是三级自适应机制:输入级校准(使用FiLM根据说话人特征归一化原始音视觉特征分布),交互级门控(基于说话人身份动态调整不同模态的权重),输出级正则化(引入说话人分类辅助损失,保持潜在空间的说话人特征一致性)。 与已有方法相比新在哪里:区别于以往将说话人ID作为简单嵌入或完全忽略的方法,ML-SAN首次将说话人身份作为贯穿整个模型流程的主动控制信号,在特征处理的多个层面实现细粒度的个性化适配,旨在将模型决策边界从“说话人无关”转变为“说话人自适应”。 主要实验结果如何:在MELD和IEMOCAP两个基准数据集上,ML-SAN均取得了最优性能。在MELD上,加权F1(W-F1)达到 67.73±0.07%,较复现的强基线MultiEMO(66.34±0.04%)提升1.39%;在IEMOCAP上达到 73.28±0.13%,较基线(72.02±0.07%)提升1.26%。消融实验证实三个模块均对性能有贡献,其中输入校准和输出正则化分别在不同数据集上作用更显著。混淆矩阵显示模型在区分“恐惧”、“愤怒”等易混淆情绪上有提升。 实际意义是什么:该工作使情感识别模型能更准确地理解个性化情感表达,对于提升情感机器人、智能客服、心理健康监测等应用中的人机交互自然度和准确性具有直接价值,特别是在需要长期、多轮交互的场景中。 主要局限性是什么:论文承认模型可能对背景噪声和模态缺失等真实世界干扰的鲁棒性有待提升。此外,虽然模型在两个数据集上有效,但其性能是否在更广泛、更多样化的说话人群体中依然稳健,需要进一步验证。开源代码和模型未提供也限制了社区的快速跟进与复现。 🏗️ 模型架构 模型整体架构旨在将说话人身份信息转化为对特征处理、模态融合和最终表征的主动调制。其流程如图2所示。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 283 words

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation

📄 MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation #语音分离 #流匹配 #多模态模型 #预训练 #迁移学习 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #多模态模型 #预训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Akira Takahashi(Sony Group Corporation, Japan) 通讯作者:未说明 作者列表:Akira Takahashi(Sony Group Corporation, Japan)、Shusuke Takahashi(Sony Group Corporation, Japan)、Yuki Mitsufuji(Sony Group Corporation, Japan & Sony AI, USA) 💡 毒舌点评 亮点在于极具创意地“废物利用”,让一个“造声音”的生成模型去干“分声音”的分离活儿,还干得不错,这种跨任务的知识迁移思路本身就很值钱。短板则在于,用生成模型的评价体系(FAD, CLAP)来评判分离任务的好坏,如同用“饭菜香气”来评价厨师刀工是否精准,方法论的适配性有待更深入的讨论;另外,模型在分离后“不忘本”的生成能力验证也略显粗糙。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/sony/mmaudiosep。 模型权重:论文中未明确提及是否公开预训练的MMAudioSep模型��重或其依赖的预训练MMAudio权重。 数据集:论文中使用的训练数据集(VGGSound, AudioCaps等)是公开的。评估数据集(VGGSound-Clean, MUSIC)引用自AudioSep项目,部分可通过其GitHub获取。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了架构图、关键超参数(如ODE步数、引导强度)和训练策略的大致描述,但缺少如学习率、batch size、具体训练步数等关键复现细节。复现强依赖于预训练的MMAudio模型。 论文中引用的开源项目:主要依赖于MMAudio(预训练模型)、CLIP、Synchformer、BiGVGAN(声码器)、AudioSep(评估数据集)、以及用于评估的av-benchmark工具。 📌 核心摘要 问题:传统声音分离模型通常基于判别式方法,而近期基于生成模型的声音分离也开始出现,但与同样使用生成模型的视频到音频(V2A)任务发展相互独立。本文旨在探索能否利用强大的预训练生成模型知识来提升分离任务。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 222 words

MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models

📄 MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models #基准测试 #模型评估 #多模态模型 #跨模态 #音频检索 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #跨模态 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haohang Huang (Eastern Institute of Technology, Ningbo) 通讯作者:Rui Meng (Google AI Research) 作者列表:Haohang Huang¹, Xuan Lu¹², Mingyi Su⁴, Xuan Zhang⁵, Ziyan Jiang⁶, Ping Nie⁴, Kai Zou⁷, Tomas Pfister³, Wenhu Chen⁴, Wei Zhang (未说明), Xiaoyu Shen¹, Rui Meng³ ¹Eastern Institute of Technology, Ningbo ²Shanghai Jiao Tong University ³Google AI Research ⁴University of Waterloo ⁵NUS (National University of Singapore) ⁶UCSB (University of California, Santa Barbara) ⁷Netmind.ai 💡 毒舌点评 亮点: 论文敏锐地指出了当前多模态嵌入模型在“指令约束模态”这一实际应用中的关键缺陷,并构建了一个覆盖音频、智能体任务的庞大基准(MMEB-V3)和精巧的诊断数据集(OmniSET)来系统性验证这一问题,研究动机扎实,分析深入。 短板: 本文的核心贡献是一个“评测基准”和“诊断分析”,而非提出一个新的多模态嵌入模型或解决该问题的创新算法,这使其更像一篇扎实的“系统工程与分析”论文,而非突破性的“方法创新”论文。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 385 words