多模态模型

MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

📄 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment #多模态模型 #音频检索 #对比学习 #自监督学习 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #对比学习 #自监督学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Rui Liu（香港理工大学）通讯作者：Jibin Wu（香港理工大学）作者列表：Rui Liu（香港理工大学）、Zhige Chen（香港理工大学）、Shu Peng（香港理工大学）、Wenlong You（香港理工大学）、Zhi-An Huang（香港城市大学（东莞））、Jibin Wu（香港理工大学）、Kay Chen Tan（香港理工大学） 💡 毒舌点评本文的核心创新“跨模态低秩对齐”（CALRA）模块设计得颇为精巧，通过类型感知、双向注意力与低秩融合的协同，确实实现了EEG与音频深度对齐，实验上也展示了“碾压式”的性能优势。然而，论文将几乎所有功劳归于这个对齐模块和多模态预训练，却轻描淡写地忽略了其巨大的模型规模（97M参数，是多数EEG基线模型的数十倍）和对高质量配对数据的强依赖，这些在现实部署中都是沉重的负担。 🔗 开源详情代码：提供代码仓库链接：https://github.com/CookieMikeLiu/MindMix。模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：所有使用的数据集均为公开数据集，论文详细列出了各数据集的名称和来源。 Demo：论文中未提及提供在线演示。复现材料：提供了详尽的训练细节、超参数配置（Table A2）、分阶段的训练策略说明、评估指标定义以及数据预处理流程，复现材料非常充分。论文中引用的开源项目：使用了预训练的Wav2Vec 2.0模型作为音频编码器，并引用了PyTorch等深度学习框架。 📌 核心摘要解决的问题：现有EEG基础模型（如EEGPT, LaBraM）在听觉解码任务上表现不佳，因其为单模态预训练，缺乏与听觉刺激信息的深度耦合，导致泛化能力受限。方法核心：提出MindMix，一个两阶段的多模态基础模型。第一阶段，在大规模EEG数据上预训练一个高容量的EEG编码器。第二阶段，利用一个新颖的“跨注意力低秩对齐”（CALRA）模块，在配对的EEG-音频数据上通过对比学习，学习深度对齐的神经-声学表示。创新之处：这是首个专为学习精细对齐的神经-声学表示而设计的多模态基础模型。核心创新是CALRA模块，它超越了简单的投影对齐，通过类型特定对齐器、双向交叉注意力和共享低秩瓶颈融合，实现了模态间的深度交互。实验结果：MindMix在多个听觉解码任务上大幅超越所有基线。在语音注意力解码（KUL数据集）上平衡准确率高达99.82%，最强基线DARNet为94.81%。在情感分析（HR-EEG4EMO数据集）上达到88.78%，比LaBraM高近16个百分点。关键对比数据如下表所示：任务数据集方法平衡准确率加权F1分数语音注意力解码 KUL DARNet 0.9481 ± 0.036 0.9567 ± 0.025 语音注意力解码 KUL MindMix 0.9982 ± 0.008 0.9991 ± 0.004 情感分析 HR-EEG4EMO LaBraM 0.7295 ± 0.082 0.7829 ± 0.081 情感分析 HR-EEG4EMO MindMix 0.8878 ± 0.045 0.8869 ± 0.046 音乐检索 MAD-EEG CBraMod 0.8011 (Duo Acc.) 0.7654 (Trio Acc.) 音乐检索 MAD-EEG MindMix 0.9475 (Duo Acc.) 0.8824 (Trio Acc.) 实际意义：为非侵入式听觉脑机接口和跨模态神经解码建立了强大的基准，推动了从“信号处理”到“神经-声学语义对齐”的研究范式转变。主要局限性：论文明确指出，当前大规模配对EEG-音频数据的稀缺是制约该领域发展的首要瓶颈，也限制了对模型扩展规律的研究。 🏗️ 模型架构 MindMix采用双流架构，包含EEG编码器、音频编码器和跨模态对齐模块，最终通过对比学习目标进行端到端优化。 ...

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表未明确标注）通讯作者：未说明（论文中未明确标注）作者列表：Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao 机构列表：MiniCPM-o Team, OpenBMB（根据署名推断） 💡 毒舌点评这篇论文真正瞄准了多模态交互范式的“圣杯”——实时全双工，其技术方案完整度和边缘部署效率令人印象深刻，是该方向的一个坚实里程碑。不过，论文对全双工交互的“主动性”和“鲁棒性”的评估相对薄弱，更像是一个高效的技术原型，离真正“类人”的复杂场景交互还有相当距离。 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）通讯作者：Xiaobo Xia（新加坡国立大学，中国科学技术大学）；Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）作者列表：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Xiaobo Xia（新加坡国立大学，中国科学技术大学）、Lu Wang（Rtizz-AI）、Longze Chen（中国科学院深圳先进技术研究院，中国科学院大学）、Renke Shan（Rtizz-AI）、Jing Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）、Tat-Seng Chua（新加坡国立大学） 💡 毒舌点评亮点在于其架构的简洁与统一性，用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计，这在处理需要深度融合的多模态检索任务时确实显示出优势，实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长，且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模，大规模Scaling下的表现未知，使得“下一代范式”的论断稍显仓促。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ritzz-ai/Next-OMNI 模型权重：是，论文明确提到“开源”模型检查点，并提供了链接。数据集：部分公开。论文中使用的大部分数据集为公开数据集（如LAION, LibriSpeech等），但也包含“私有数据”。论文未提供统一的训练数据下载链接，但详细列出了数据来源和构成（表8）。 Demo：论文中未提及在线演示。复现材料：非常充分。附录中提供了模型设计细节（D）、数据策展详情（E）、训练配方（F，表9）和额外的实验与可视化结果（G, H, I）。论文中引用的开源项目：主要包括：Qwen2.5系列（骨干/对齐损失）、CLIP-ViT（视觉编码器初始化）、Whisper（音频编码器初始化）、FLUX（图像生成数据合成）、MMEvol（指令数据增强）、以及训练数据相关的多个公开数据集工具（如LAION, Common Crawl）。 📌 核心摘要本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余（混合/解耦设计）导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI，首个完全基于离散流匹配（DFM）的开源全能态基础模型。与已有的自回归或混合架构相比，其新在：1）完全摒弃自回归范式，采用DFM进行并行去噪，原生支持双向信息融合；2）设计了带有重建损失的统一表征编码器，为生成、理解和检索任务提供一体化特征；3）引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下：在全能态理解基准（OmniBench, WorldSense, AV-Odyssey）上，平均得分39.7，优于OpenOmni（36.5）；在多轮视觉交互（OpenING）上，平均分55.0，显著高于前代模型；在多模态检索（MMEBEDIR子集）上，平均Top-5准确率32.9，优于所有对比模型（MMaDA为31.8）；在语音交互（Spoken QA）上取得有竞争力的结果。实际意义在于，它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于，受限于计算资源，模型仅在7B规模上训练和验证，其在大规模下的潜力尚未证明。 ...

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #音频场景理解 #多模态模型 #基准测试 #数据集 #开源工具 🔥 9.0/10 | 前25% | #音频场景理解 | #多模态模型 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ziyang Ma（上海交通大学，南洋理工大学）（论文中为共同第一作者）通讯作者：Xie Chen（上海交通大学，上海创智学院）（论文中为共同通讯作者）作者列表：Ziyang Ma（上海交通大学，南洋理工大学）、Ruiyang Xu（上海交通大学）（共同第一作者）、Zhenghao Xing（香港中文大学）（共同第一作者）、Yunfei Chu（阿里集团， Qwen团队）、Yuxuan Wang（阿里集团， Qwen团队）、Jinzheng He（阿里集团， Qwen团队）、Jin Xu†（阿里集团， Qwen团队）（项目负责人）、Pheng-Ann Heng（香港中文大学）、Kai Yu（上海交通大学）、Junyang Lin（阿里集团， Qwen团队）、Eng Siong Chng（南洋理工大学）、Xie Chen‡（上海交通大学，上海创智学院）（共同通讯作者） 💡 毒舌点评亮点在于提出了一个从“侦探式”数据生成、到针对性模型训练、再到闭式基准评估的完整闭环方案，直面多模态描述中“细节-幻觉”权衡这一核心矛盾，系统性强且效果显著。短板则是“多模态细粒度描述生成”本身仍是一个相对垂直和小众的任务，且模型架构本身是基于现有骨干（Qwen2.5-Omni）的微调，并非底层架构创新。 ...

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #强化学习 #数据集 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）通讯作者：Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所）作者列表：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院、中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院、中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所） 💡 毒舌点评亮点：这篇论文最大的价值在于“系统性”和“开创性”，它首次将奖励模型（RM）的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态，并引入了自由形式的偏好描述，填补了一个重要的空白。短板：虽然构建了庞大的框架，但其核心生成式奖励模型（R1）的探索稍显初步，仅用了3%的数据进行训练，且论文中对训练的具体超参数和硬件环境交代不够清晰，使得这个最具野心的部分在可复现性上打了一丝折扣。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：论文提及将发布Omni-RewardModel，但未在正文中直接提供权重下载链接，通常这些链接会包含在代码仓库的README中。数据集：Omni-RewardBench和Omni-RewardData均已公开，并提供了HuggingFace链接： https://hf.co/datasets/HongbangYuan/OmniRewardBench https://hf.co/datasets/jinzhuoran/OmniRewardData Demo：论文中未提及在线演示。复现材料：论文详细描述了数据集构建流程、模型架构和评估协议，并在附录中提供了标注指南、质量控制细节等。但如前所述，缺乏训练硬件、具体超参数配置（如学习率、batch size、训练轮数）等细节。引用的开源项目：论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型，并使用了GPT-4o进行数据生成。 📌 核心摘要这篇论文旨在解决当前奖励模型（RM）面临的模态不平衡（主要支持文本和图像）和偏好刚性（仅学习固定二元偏好）两大挑战，提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分：（1）Omni-RewardBench：首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准，包含3725个高质量人工标注对；（2）Omni-RewardData：一个大规模多模态偏好数据集，包含248K通用偏好对和69K指令微调对，以提升模型对跨模态任务和动态偏好的泛化能力；（3）Omni-RewardModel：基于上述数据训练的两种全模态奖励模型，包括判别式（BT）和生成式（R1）版本。实验表明，Omni-RewardModel在Omni-RewardBench上取得了最优性能（w/ Ties设置下准确率65.36%），在VL-RewardBench等公开基准上也达到了或超过了SOTA水平，证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳，凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础，但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。 ...

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #多模态模型 #音频检索 #基准测试 #跨模态 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junyang Ji（清华大学、快手科技、南方科技大学）通讯作者：Zhihai He（南方科技大学）、Wenming Yang（清华大学）作者列表：Junyang Ji（清华大学、快手科技、南方科技大学）、Shengjun Zhang（快手科技）、Da Li（快手科技、中国科学院大学）、Yuxiao Luo（快手科技、北京大学）、Yan Wang（快手科技）、Di Xu（快手科技）、Biao Yang（快手科技）、Wei Yuan（快手科技）、Fan Yang（快手科技）、Zhihai He（南方科技大学）、Wenming Yang（清华大学） 💡 毒舌点评本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白，并提出了一个扩展模型，其消融实验设计（如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式）颇具巧思，有力地论证了“显式音频语义”的关键性。然而，其模型的核心创新“Audio-as-Text”在工程上略显“取巧”，完全依赖于现有大模型（Qwen2-Audio）的能力，并未在音频表征学习本身提出新方法，且额外的转录步骤带来了显著的延迟开销。 🔗 开源详情代码：论文中提供了GitHub仓库链接：https://github.com/Kuaishou-Reasearch/OmniCVR，并声明将开源完整代码库。模型权重：论文中声明将开源AudioVLM2Vec的模型权重。数据集：论文中声明OmniCVR基准（包括160k+片段、50k+三元组和黄金测试集）将在发表后完全开源，数据集链接为：https://huggingface.co/datasets/Jun-Yang/OmniCVR。 Demo：论文中未提及。复现材料：论文提供了详细的数据生成流程、所有使用的提示词（见附录G）、以及对训练设置（基于开源预训练权重）的描述，为复现提供了良好基础。但部分具体训练超参数未在文中说明。论文中引用的开源项目/模型：Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。 📌 核心摘要要解决什么问题：现有的组合视频检索（CoVR）基准和方法主要关注视觉与文本的对齐，系统性地忽略了音频模态（语音、音乐、环境声）在视频理解中的关键作用，导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。方法核心是什么：论文提出了OmniCVR基准，这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时，提出了一种名为AudioVLM2Vec的模型，该模型通过将音频轨道转录为细粒度文本描述，并将其与视觉信息和用户查询一同输入大语言模型骨干，从而显式地注入音频语义。与已有方法相比新在哪里：1) 任务定义：首次定义了“全模态组合检索”，涵盖视觉中心、音频中心和集成型查询；2) 数据构建：设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程；3) 模型架构：提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式，区别于其他“全模态”模型（如ImageBind、OmniEmbed）直接处理原始音频token的方式。主要实验结果如何：AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如，在整体查询上R@1达到66.98%，比强基线VLM2Vec（38.44%）高出28.54个百分点；在音频中心查询上R@1达到77.2%，而VLM2Vec仅为12.4%。消融实验证明，移除源视频会导致性能暴跌，证实了任务对组合推理的严格要求；将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制，其R@1从13.6%大幅提升至32.7%。实际意义是什么：该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准，揭示了当前最先进模型在音频理解和组合推理上的重大缺陷，并证明了将音频转化为语义文本是提升相关性能的有效途径，对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。主要局限性是什么：1) 推理效率：引入的音频转录步骤显著增加了推理延迟（从1.72s增加到4.77s），限制了实时应用；2) 音频表征依赖：性能高度依赖于Qwen2-Audio的转录质量，可能引入偏差或错误；3) 任务范围：专注于检索任务，未探索音频修改指令的生成等更复杂的交互。 🏗️ 模型架构本文主要提出AudioVLM2Vec模型，其架构是VLM2Vec的扩展。整体流程如下图所示： ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Caorui Li (南京大学, 东南大学) 通讯作者：Jiaheng Liu (南京大学) 作者列表：Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念（如强调音视频必须协同、设计原子推理链、多阶段质量过滤），为评估“真·多模态推理”设立了高标准。然而，短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板（音乐理解差、长视频融合弱），但并未提出任何解决这些问题的新模型或新方法，创新性停留在了评估体系的设计层面。 ...

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #音视频 #大语言模型 #对比学习 #音频问答 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Hanrong Ye（NVIDIA）通讯作者：Hongxu Yin (§†∗)， Pavlo Molchanov (§) （§ Equal Advisory, † Corresponding Authors，均在NVIDIA）作者列表：Hanrong Ye（NVIDIA）， Chao-Han Huck Yang（NVIDIA）， Arushi Goel（NVIDIA）， Wei Huang（NVIDIA）， Ligeng Zhu（NVIDIA）， Yuanhang Su（NVIDIA）， Sean Lin（NVIDIA）， An-Chieh Cheng（NVIDIA）， Zhen Wan（NVIDIA）， Jinchuan Tian（NVIDIA）， Yuming Lou（NVIDIA）， Dong Yang（NVIDIA）， Zhijian Liu（NVIDIA）， Yukang Chen（NVIDIA）， Ambrish Dantrey（NVIDIA）， Ehsan Jahangiri（NVIDIA）， Sreyan Ghosh（NVIDIA）， Daguang Xu（NVIDIA）， Ehsan Hosseini-Asl（NVIDIA）， Danial Mohseni Taheri（NVIDIA）， Vidya Murali（NVIDIA）， Sifei Liu（NVIDIA）， Yao Lu（NVIDIA）， Oluwatobi Olabiyi（NVIDIA）， Yu-Chiang Frank Wang（未说明）， Rafael Valle（NVIDIA）， Bryan Catanzaro（NVIDIA）， Andrew Tao（NVIDIA）， Song Han（NVIDIA）， Jan Kautz（NVIDIA）， Hongxu Yin§†∗（NVIDIA）， Pavlo Molchanov§（NVIDIA）。所有作者均隶属于NVIDIA。 💡 毒舌点评这篇论文的亮点在于其对“全模态对齐”问题的系统性工程化拆解：提出的三个模块（OmniAlignNet, TEG, CRTE）在消融实验中表现出清晰的递进效果，且“隐式+显式”数据合成策略为解决稀缺全模态数据提供了一个可复用的思路。短板则在于，作为一篇声称“开源”的旗舰工作，其论文中对模型具体参数、训练超参数（如学习率、优化器设置）、以及核心代码仓库的链接均未明确给出，极大地影响了其声称的可复现性承诺。 ...

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型合并 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yongxian Wei（清华大学）通讯作者：Lu Hou（华为诺亚方舟实验室），Chun Yuan（清华大学）作者列表：Yongxian Wei（清华大学），Runxi Cheng（清华大学），Weike Jin（华为诺亚方舟实验室），Enneng Yang（中山大学），Li Shen（中山大学），Lu Hou（华为诺亚方舟实验室），Sinan Du（清华大学），Chun Yuan（清华大学），Xiaochun Cao（中山大学），Dacheng Tao（南洋理工大学） 💡 毒舌点评亮点：论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白，并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法（OptMerge），实验充分且开源承诺良好。短板：实验规模主要集中在1B和7B参数的模型上，对于当前主流的大参数量（如70B以上）多模态模型的合并效果、以及合并后模型的长期稳定性（如对话能力衰减）缺乏更深入的探讨。 🔗 开源详情代码：论文明确提及“All code and checkpoints are publicly available here”，并提供了链接（here应为超链接，但当前文本中未显示具体URL）。因此，代码将开源。模型权重：论文明确提及公开“checkpoints”，包括为基准训练的所有专家模型（VQA, Geometry, Chart, OCR, Grounding）在InternVL2.5和Qwen2-VL上的权重，以及模态合并实验中使用的视觉、音频、视频模型权重。数据集：基准中使用的所有训练数据和评估数据均来自公开数据集（如Table 1所列），论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。 Demo：论文中未提及提供在线演示。复现材料：论文提供了详细的实现细节（附录C），包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行，提供了硬件参考。引用的开源项目：论文依赖并引用了多个开源工具和模型，包括：模型：InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。评估工具：VLMEvalKit, LMMs-Eval。合并工具：提到MergeKit。框架：HuggingFace Transformers。 📌 核心摘要要解决什么问题：现有模型合并研究缺乏针对多模态大语言模型（MLLM）的、能清晰划分其多种能力（如VQA、几何推理、图表理解等）并评估其模态融合效果的专用基准。同时，现有的数据驱动合并方法成本高昂，需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。方法核心是什么：本文提出了OptMerge基准，包含从VQA到Grounding五类能力的训练数据集和评估集，覆盖了InternVL2.5（全微调）和Qwen2-VL（LoRA）两种设置。同时，提出了OptMerge算法，通过对任务向量进行低秩近似去噪，并基于任务向量间的交互损失来鲁棒地优化合并向量，以应对全微调和LoRA微调模型参数特性不同的挑战。与已有方法相比新在哪里：(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge，通过SVD去噪和针对性的优化策略（全微调用Adam+中心化，LoRA用SGD+初始化为平均值）来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态，构建“全模态”语言模型。主要实验结果如何：能力合并：OptMerge在基准上平均性能提升2.48%，在InternVL2.5（全微调）上达到57.44分（最佳），在Qwen2-VL（LoRA）上达到63.30分（最佳），超越了需要数据混合训练的基线（如InternVL2.5混合训练为57.66分）。模态合并：合并视觉、音频、视频三个模态模型后，在Audio-VQA任务上平均得分66.88，显著高于单个模态模型（视觉63.16，音频37.75，视频64.11）。消融实验：对LoRA合并，从WUDI Merging（58.65）逐步加入SGD（降至48.88）、初始化（升至63.08）、低秩近似（最终63.30）各组件，验证了各设计的有效性。实际模型：合并从Hugging Face收集的4个不同专长模型（如GRPO数学模型、Pokemon模型），平均分达66.70，超过了最强单体模型（63.17）。实际意义是什么：证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本，还能通过“数据free”的方式整合不同模态的编码器，为快速集成社区开源模型、构建全模态模型提供了新思路。主要局限性是什么：实验主要在中等规模模型（1B， 7B）上进行，对更大规模模型（如32B以上）的验证（虽然补充了32B实验但不深入）和计算效率的更全面评估有待加强。此外，基准所用的训练数据均为公开数据集，可能无法完全代表工业界复杂的私有数据场景。 🏗️ 模型架构本文的核心贡献并非提出一个新的多模态模型架构，而是提出一种模型合并（Merging）的方法论，用于将多个已训练好的、具有不同能力或模态的多模态大语言模型（MLLM）融合成一个统一的模型。因此，其“架构”主要指合并后模型的构成方式。 ...

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）通讯作者：Wei Xue（香港科技大学）作者列表：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）、Kaicheng Luo（阿里巴巴集团通义实验室）、Wen Wang（阿里巴巴集团通义实验室）、Qian Chen（阿里巴巴集团通义实验室）、Peiwen Sun（香港中文大学）、Rongjie Huang（香港中文大学）、Xiangang Li（阿里巴巴集团通义实验室）、Jieping Ye（阿里巴巴集团通义实验室）、Wei Xue（香港科技大学） 💡 毒舌点评亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路，清晰且有效，为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是，其提出的全新AudioCanvas基准数据集虽然是必要的，但作为“裁判员”的同时，自己也是“运动员”，这使得核心结论的公信力部分依赖于数据集构建的客观性，且报告的部分指标（如在某些空间或美学指标上超越了真实音频）需要更谨慎的解释。 🔗 开源详情代码：论文承诺将开源完整训练脚本和配置文件，但当前未提供代码仓库链接。模型权重：论文承诺将公开所有模型权重（音频基础模型、微调后的VideoLLaMA2等），但未提供下载地址。数据集：论文承诺将公开AudioCanvas基准数据集，但未说明具体获取方式。 Demo：论文未提及在线演示。复现材料：附录D提供了极其详细的实现细节，包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数，以及CoT生成和微调的提示词模板，复现信息非常充分。论文中引用的开源项目：VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro（API）, MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要要解决什么问题：视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度，但现有方法使用单一损失函数导致目标相互纠缠，且缺乏与人类偏好对齐。方法核心是什么：提出PrismAudio框架，首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块（语义、时间、美学、空间），并为每个模块设计对应的奖励函数，通过多维强化学习进行联合优化。与已有方法相比新在哪里：1) 首次在V2A中使用分解式CoT与多维RL奖励对应，解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法，通过随机窗口的混合ODE-SDE采样，在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。主要实验结果如何：在自建的AudioCanvas基准和VGGSound测试集上，PrismAudio在所有四个感知维度上均达到了SOTA水平。例如，在AudioCanvas上，与基线ThinkSound相比，语义对齐度（CLAP）从0.48提升至0.52，时间同步性（DeSync）从0.80大幅改善至0.36，美学质量（CE）从4.10提升至4.26，空间误差（CRW）从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT，多维度奖励优于单维度奖励。实际意义是什么：为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。主要局限性是什么：框架复杂度较高，依赖于多个预训练模型（如VideoLLaMA2、各种奖励模型）。实验中报告的部分客观指标（如空间/美学）超越了真实音频，这可能源于对不完美代理指标的过度优化，其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段，建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...