多模态模型

ConsMSA: Semantic Distribution Consistency Learning for Multimodal Sentiment Analysis

📄 ConsMSA: Semantic Distribution Consistency Learning for Multimodal Sentiment Analysis #多模态模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.1/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构第一作者：Pan Wang（匹兹堡大学电子与计算机工程系，Amazon）通讯作者：Pan Wang (pan.wang@pitt.edu) 和 Jingtong Hu (jthu@pitt.edu) 作者列表：Pan Wang（匹兹堡大学电子与计算机工程系，Amazon）、Lipeng Ke（Amazon, Sunnyvale）、Huajun Ying（Amazon, Sunnyvale）、Pritish Mohapatra（Amazon, Sunnyvale）、Rohan Sarkar（Amazon, Sunnyvale）、Suresh Lakhani（Amazon, Sunnyvale）、Sankar Venkataraman（Amazon, Sunnyvale）、Jingtong Hu（匹兹堡大学电子与计算机工程系） 💡 毒舌点评这篇论文把“语义分布一致性”的概念玩得很溜，统一了模态内冗余和模态间冲突这两个老大难问题。方法上把JS散度、置信度gate和token剪枝打包成一套整洁的信号驱动框架，工程味道很浓，压缩实验也够硬核。可惜创新点偏“组合式精致”，底层模块都是老面孔，且完全不开源，这在顶会上相当于是断了自己复现验证的后路，诚意不足。 ...

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

📄 DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation #音视频生成 #扩散模型 #多模态模型 #说话人验证 #多任务学习 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1.1/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音视频生成 | #扩散模型 | #多模态模型 #说话人验证 | arxiv 👥 作者与机构第一作者：Xu Guo（清华大学）通讯作者：Xiangwang Hou（清华大学）、Songtao Zhao（字节跳动）作者列表：Xu Guo（清华大学）、Fulong Ye（字节跳动）、Qichao Sun（字节跳动）、Liyang Chen（清华大学）、Bingchuan Li（字节跳动）、Pengze Zhang（字节跳动）、Jiawei Liu（字节跳动）、Songtao Zhao（字节跳动）、Qian He（字节跳动）、Xiangwang Hou（清华大学） 💡 毒舌点评这篇文章的工程野心令人印象深刻——硬生生把三个各自为战的音视频生成任务塞进一个框架，双边对称注入、多阶段课程学习、双层级解耦，把身份绑定和任务冲突这些硬骨头啃了一遍。但读完之后如鲠在喉：Syn-RoPE本质上是RoPE的Margin分区技巧，结构化字幕是MLLM提示工程的产物，三阶段训练是课程学习的实例化——这些精巧的“组合创新”固然有效，却掩盖不了方法层面未见根本性突破的事实。更要命的是，一个号称“统一框架”的顶会投稿，代码和模型权重双双缺失，数据集获取方式也语焉不详，这严重削弱了其学术可信度和传播潜力。论文把“统一”的故事讲得挺好，但开源精神上显然还没“统一”过来。 ...

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

📄 E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs #音视频问答 #基准测试 #多模态模型 #强化学习 6.9/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.5/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 6.9/10 | 前50% | #音视频问答 | #强化学习 | #基准测试 #多模态模型 | arxiv 👥 作者与机构第一作者：Xianjie Liu（阿里巴巴淘宝天猫集团阿里妈妈技术部，实习期间完成此项工作）通讯作者：Yiman Hu（阿里巴巴淘宝天猫集团阿里妈妈技术部, 项目负责人）、Liang Wu（阿里巴巴淘宝天猫集团阿里妈妈技术部）、Jian Xu（阿里巴巴淘宝天猫集团阿里妈妈技术部）、Bo Zheng（阿里巴巴淘宝天猫集团阿里妈妈技术部）作者列表： Xianjie Liu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Yiman Hu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Liang Wu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Ping Hu（Vin University，未说明具体学院/实验室） Yixiong Zou（华中科技大学，未说明具体学院/实验室） Jian Xu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Bo Zheng（阿里巴巴淘宝天猫集团阿里妈妈技术部） 💡 毒舌点评这篇论文精准切入了一个被顶会圈子长期忽视、却蕴藏巨大商业价值的领域——电商短视频理解。其提出的多模态密度评估框架是整个工作的点睛之笔，为“这任务为什么难”提供了量化的、有说服力的证据。然而，如果说方法部分展现的是专业团队的水准，那么论文呈现的排版质量则近乎草稿级别：严重的文本渲染错乱和表格乱码问题，贯穿全文，这不仅严重损害了专业形象，也让人怀疑作者对细节的态度。更关键的是，对于音频领域的读者而言，本文对语音信号的处理极其“粗暴”——将丰富的人类语言表达（韵律、情感、强调）简化为一串被计数的词汇，这与现代语音/副语言分析的前沿水平存在显著断层。 ...

EchoingPixels: Aliasing-Resistant Joint Token Reduction for Audio-Visual LLMs

📄 EchoingPixels: Aliasing-Resistant Joint Token Reduction for Audio-Visual LLMs #音视频理解 #模型压缩 #多模态模型 6.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 6.3/10 | 前50% | #音视频理解 | #模型压缩 | #多模态模型 | arxiv 👥 作者与机构第一作者：Chao Gong（复旦大学，蚂蚁集团）通讯作者：Huijia Zhu（蚂蚁集团），Jingjing Chen（复旦大学）作者列表：Chao Gong（复旦大学，蚂蚁集团）、Depeng Wang（蚂蚁集团）、Zhipeng Wei（UC Berkeley）、Ya Guo（蚂蚁集团）、Huijia Zhu（蚂蚁集团）、Jingjing Chen（复旦大学） 💡 毒舌点评论文敏锐地捕捉到稀疏采样下位置编码的频谱混叠这一被忽视的理论瓶颈，并用 Nyquist 视角给出了优雅的 Sync-RoPE 解决方案，实验上也做到了近乎无损的极致压缩。但方法对 RoPE 结构的依赖过强，本质上是对一个特定位置编码的后处理补丁，而非通用的时序建模理论。CS2 模块带来的固定开销在极短序列场景下是高射炮打蚊子，虽然作者在 rebuttal 中补充了效率分析，但跨架构泛化性仍是一道硬伤。 ...

Efficient Distributed MLLM Training with Cornstarch

📄 Efficient Distributed MLLM Training with Cornstarch #音视频理解 #多模态模型 #预训练 7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7/10 | 前50% | #音视频理解 | #多模态模型 | #预训练 | arxiv 👥 作者与机构第一作者：Insu Jang（University of Michigan）通讯作者：Insu Jang（University of Michigan）作者列表：Insu Jang（University of Michigan）、Runyu Lu（University of Michigan）、Nikhil Bansal（University of Michigan）、Ang Chen（University of Michigan）、Mosharaf Chowdhury（University of Michigan） 💡 毒舌点评 Cornstarch 巧妙地将冻结参数对反向传播的影响量化到流水线划分中，并将负载均衡的粒度从跨 GPU 深入到 GPU 内部计算单元，工程实现扎实。但仅有一种 GPU 型号和合成数据的评测令人对其真实泛化性存疑；且论文聚焦通用多模态系统优化，对音频/语音领域特有挑战着墨甚少，相关工作（如 DistMM、Optimus）的对比也完全缺失，使得该工作在垂直领域的直接参考价值大打折扣。 ...

FakeWorld 1.0: An Omni-modal Benchmark for Fake Media and Content

📄 FakeWorld 1.0: An Omni-modal Benchmark for Fake Media and Content #可解释性 #基准测试 #多模态模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 6.1/10 | 前50% | #可解释性 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构第一作者：Yifeng Gao（复旦大学）通讯作者：Xingjun Ma（复旦大学）作者列表：Yifeng Gao（复旦大学）、Yifan Ding（复旦大学，阿里巴巴集团）、Li Wang（复旦大学）、Feida Huang（复旦大学）、Ye Sun（复旦大学）、Yixu Wang（复旦大学）、Xin Wang（复旦大学）、Yutao Wu（迪肯大学）、Hanxun Huang（墨尔本大学）、Yunhao Feng（复旦大学，阿里巴巴集团）、Yingshui Tan（阿里巴巴集团）、Xingjun Ma（复旦大学）、Yu-Gang Jiang（复旦大学） 💡 毒舌点评论文将一个极具野心的“媒体真伪”与“内容虚实”交叉评估理念推向了全模态，构建了一个高保真的混合欺骗场景，其问题定义令人眼前一亮。然而，在解决方案上却显得有点“虎头蛇尾”。核心的OmniCheck框架将检测重任押注于一个基于Qwen2.5-Omni-3B的LoRA微调小模型，这好比用精巧的锁扣去守护一扇纸糊的门。诚然，模型小、跑得快，但与它要评估的那些动辄上百亿参数的前沿大模型相比，其检测能力的理论上限令人存疑，且全文对数据、代码与模型的开源情况讳莫如深，对于一篇以Benchmark为核心贡献的论文而言，这无疑是一个显著的减分项。 ...

From Inpainting to Editing: Unlocking Robust Mask-Free Visual Dubbing via Generative Bootstrapping

📄 From Inpainting to Editing: Unlocking Robust Mask-Free Visual Dubbing via Generative Bootstrapping #扩散模型 #多模态模型 7.6/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #扩散模型 | #扩散模型 | #多模态模型 | arxiv 👥 作者与机构第一作者：Xu He（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院, 香港中文大学）作者列表：Xu He（清华大学深圳国际研究生院）、Haoxian Zhang（快手Kling团队）、Hejia Chen（快手Kling团队）、Changyuan Zheng（清华大学深圳国际研究生院）、Liyang Chen（清华大学深圳国际研究生院）、Songlin Tang（快手Kling团队）、Jiehui Huang（香港科技大学）、Xiaoqiang Liu（快手Kling团队）、Pengfei Wan（快手Kling团队）、Zhiyong Wu（清华大学深圳国际研究生院 / 香港中文大学） 💡 毒舌点评亮点：论文提出了一种极具洞察力的“生成式自举”范式，从根本上解决了视觉配音领域因掩码修复带来的唇形泄露、身份漂移等顽疾，实现了无掩码、高保真的视觉配音。时间步自适应多阶段学习策略巧妙解耦了编辑任务中的多目标冲突，模型在复杂场景下的鲁棒性令人印象深刻。短板：技术方案对预训练 DiT 和 Whisper 等强大先验的依赖程度过高，自身基础方法的创新有限，且未能提供对基底模型更换后的鲁棒性分析。提出的 X-DubBench 数据集和模型权重均未公开，仅有的推理代码严重限制了社区复现与公平对比。 ...

Group Cognition Learning: Making Everything Better Through Controlled Two-Stage Agents Collaboration

📄 Group Cognition Learning: Making Everything Better Through Controlled Two-Stage Agents Collaboration #音视频理解 #多模态模型 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7.3/10 | 前50% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构第一作者：Chunlei Meng（复旦大学智能机器人研究院与先进制造技术学院）通讯作者：Chun Ouyang（复旦大学智能机器人研究院与先进制造技术学院）作者列表：Chunlei Meng（复旦大学）、Pengbin Feng（南加州大学）、Rong Fu（澳门大学）、Hoi Leong Lee（玻璃市马来西亚大学）、Xiaojing Du（阿德莱德大学）、Zhaolu Kang（北京大学）、Zeyu Zhang（澳大利亚国立大学）、Weilin Zhou（新疆大学）、Chun Ouyang（复旦大学）、Zhongxue Gan（复旦大学） 💡 毒舌点评本文用“治理化协作”这一概念为多模态融合引入了清晰的控制流，选择性交互和共识形成两个阶段的设计相当完整，消融实验也很扎实。但整篇像是多个精巧loss拼凑成的代理系统，四类代理各司其职却也让方法过于臃肿，超参数敏感性实验只覆盖了少数关键项，且没有公开代码，复现难度较高。 📌 核心摘要要解决的问题：多模态学习中常见的模态支配（梯度集中于最强模态）和伪模态耦合（过拟合偶然共现），导致模型脆弱且可解释性差。方法核心：提出“群体认知学习 (GCL)”，用两阶段治理化协议取代隐式融合。阶段一（选择性交互）由路由代理提议有向交互路径，审计代理基于边际预测增益动态控制信息传递；阶段二（共识形成）由公共因子代理提取共享语义，聚合代理依据贡献感知的权重形成最终预测。与已有方法的区别：不同于简单加权融合、事后解耦或基于梯度的优化干预，GCL 首次将交互过程显式地建模为可审计、可门控的代理系统协议，在样本级别根据预测增益直接决定是否进行跨模态通信，并显式惩罚冗余耦合。主要实验结果：在 CMU-MOSI (MAE 0.685, Acc-7 49.06), CMU-MOSEI (MAE 0.520, Acc-7 55.36) 和 MIntRec (Acc 72.74) 上达到 SOTA，消融表明去掉选择性交互或共识模块都导致性能显著下降，在噪声和置换压力测试及跨任务/跨模态组合泛化实验中鲁棒性明显优于基线。实际意义：为多模态情感分析和意图识别提供了一种可解释、抗噪声的融合范式，有望迁移到其他需要审计交叉模态贡献的领域（如健康监测、法庭证据合成）。主要局限性：代理结构复杂、超参数较多，训练需要额外的教师增益信号，且论文未公开代码，工业落地前需更多验证。同时，所有实验基于预提取特征，缺少端到端训练验证。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文使用了 CMU-MOSI、CMU-MOSEI、MIntRec、CREMA-D、UCF101、AVE、Food101 等公开数据集，但未提供直接下载链接 Demo：论文中未提及复现材料：论文中给出了部分实验环境与超参数（PyTorch、Adam、batch size 128、weight decay \(1\times 10^{-4}\)、A100 32GB、早停 patience 6），含附录 A/B，但未提供代码、检查点或配置文件论文中引用的开源项目：未提及（论文仅以参考文献形式引用各方方法，未给出代码仓库或项目链接） 🏗️ 方法概述和架构 GCL 是一个两阶段治理化多模态学习框架。输入为三种模态的语言 (l)、声学 (a)、视觉 (v) 经过模态特定编码器得到的独立特征，输出为最终预测。整个流程由四个功能显式定义、协同工作的代理执行，不依赖隐式融合。 ...

IVQ: Structured and Lightweight Vector Quantization via Binary Hierarchical Composition Inspired by

📄 IVQ: Structured and Lightweight Vector Quantization via Binary Hierarchical Composition Inspired by \(\textit{IChing}\) #音频编码 #音乐生成 #多模态模型 #模型压缩 8.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 🔥 8.2/10 | 前25% | #音频编码 | #模型压缩 | #音乐生成 #多模态模型 | arxiv 👥 作者与机构第一作者：Heda Zuo（浙江大学计算机科学与技术学院）通讯作者：Weitao You（浙江大学计算机科学与技术学院）作者列表：Heda Zuo（浙江大学计算机科学与技术学院）、Junxian Wu（浙江大学计算机科学与技术学院）、Fengjie Lu（浙江大学计算机科学与技术学院）、Pei Chen（浙江大学计算机科学与技术学院）、Lingyun Sun（浙江大学计算机科学与技术学院）、Weitao You（浙江大学计算机科学与技术学院） 💡 毒舌点评这篇论文的野心在于用东方哲学包装一个本质上属于残差积量化（Residual-Product VQ）的技术方案，并试图将《易经》的符号系统强制映射为一种结构先验。但难能可贵的是，这种包装并非纯粹的概念点缀，而是真正催生了极简码本（4×2个基向量）与几何对称约束的有效结合，从根本上解决了码本坍缩，并实现了100%的利用率。在“大力出奇迹”的Scaling Law时代，这种追求结构优雅和极致轻量化的反向探索具有启发性。但哲学隐喻增加了不必要的阅读障碍，且实验规模与当前主流大模型相差甚远，使其实用性仍存疑。 ...

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

📄 JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments #声源定位 #多模态模型 #空间音频 #参数高效微调 #数据集 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.1/10 | 前25% | #声源定位 | #多模态模型 | #空间音频 #参数高效微调 | arxiv 👥 作者与机构第一作者：Zhan Liu（清华大学、腾讯AI Lab）通讯作者：Chao Zhang（清华大学）作者列表：Zhan Liu（清华大学、腾讯AI Lab）、Changli Tang（清华大学）、Yuxin Wang（香港科技大学）、Zhiyuan Zhu（浙江大学）、Youjun Chen（香港中文大学）、Yiwen Shao（腾讯AI Lab）、Tianzi Wang（腾讯AI Lab）、Lei Ke（腾讯AI Lab）、Zengrui Jin（清华大学）、Chao Zhang（清华大学） 💡 毒舌点评本文提出了在3D模拟物理环境中进行联合音视频定位与推理的框架 JAEGER，其核心贡献 Neural IV 和 SpatialSceneQA 数据集为空间音频理解研究提供了有价值的工具和基准。亮点在于系统性整合了 RGB-D 视觉与多通道 FOA，并在附录中通过 SimpleFuse 基线实验初步证明了其架构设计的有效性，而非仅依赖于多模态输入的堆砌。然而，实验设计存在明显的“避重就轻”：正文主表（Table 2）回避了 SimpleFuse 基线，将其置于附录，这使得核心主张——即架构的优越性——在主叙述中缺乏最直接的量化支撑。此外，3D 视觉接地任务中，专门针对 3D 的模型 N3D-VLM 竟获得 0.0 IoU，这一零样本、无适配的对比方式极不公正，更像是对基线的“处决”而非“比较”。更严重的是，多说话人推理任务在正文中汇报了接近 100% 的准确率，营造出任务已被解决的假象，而论文在附录中承认，当干扰项增至 4-6 个时性能迅速下降，这种对任务天花板效应（ceiling effect）的深度分析本应是正文的核心内容，却被掩盖于近乎完美的数字之下。 ...