多模态模型

TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES

📄 TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES #多模态模型 #实时处理 #多通道 #开源工具 ✅ 7.0/10 | 前25% | #多模态模型 | #实时处理 | #多通道 #开源工具学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yilong Li（University of Wisconsin – Madison）通讯作者：未说明作者列表：Yilong Li（University of Wisconsin – Madison）、Shuai Zhang（Amazon Web Services AI）、Yijing Zeng（University of Wisconsin – Madison）、Chengpo Yan（University of Wisconsin – Madison）、Hao Zhang（University of Wisconsin – Madison）、Xinmiao Xiong（University of Wisconsin – Madison）、Jingyu Liu（University of Wisconsin – Madison）、Pan Hu（Uber）、Suman Banerjee（University of Wisconsin – Madison） 💡 毒舌点评这篇论文亮点在于提出了一个完整的、软硬件协同设计的系统框架（NANOMIND），并通过自研硬件原型机验证了其在电池供电设备上运行多模态大模型的可行性，实测的能效比数据（降低42.3%能耗）很有说服力。短板在于其对比实验主要聚焦于自身设计的硬件平台与不同软件框架的对比，缺乏与当前主流商用边缘设备（如最新款旗舰手机）上SOTA框架的公平、全面比较，这削弱了其结论的普适性和说服力。 ...

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #音频事件检测 #预训练 #脑编码 #自然刺激处理 ✅ 7.5/10 | 前25% | #脑编码 | #多模态模型 | #音频事件检测 #预训练学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未明确说明（根据邮箱格式，所有作者邮箱均为个人邮箱，无明确标注通讯作者）作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评这篇论文在Algonauts竞赛中大获全胜，其“端到端多模态”的设计理念确实击中了当前脑编码模型的痛点，将不同模态的信息整合从一个线性后处理步骤提升到了模型的核心。然而，对于一篇旨在“通向整合认知模型”的工作，其核心Transformer编码器的细节（如注意力机制如何具体捕捉跨模态和跨时间信息）描述过于简略，宛如一个黑箱，这与论文宣称的“非线性”优势相称却不够透明。 🔗 开源详情代码：是。论文提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。模型权重：未提及。论文中未明确说明TRIBE模型本身的预训练权重是否公开，仅提到了所使用的预训练基础模型（Llama, Wav2Vec-Bert, V-JEPA 2）的来源和许可证。数据集：未直接公开。论文使用的Courtois NeuroMod数据集有其自身的获取渠道（CC0许可证），但论文未提供直接下载链接。 Demo：未提及。复现材料：是。论文提供了详细的训练策略、超参数表格（表3）、硬件配置和模型架构描述，结合开源代码，复现细节较为充分。论文中引用的开源项目：预训练模型：Llama-3.2-3B， Wav2Vec-Bert-2.0， V-JEPA 2。软件库：x-transformers， nilearn， PyTorch。数据集：Courtois NeuroMod。论文中未提及开源计划：未提及模型权重的开源计划，未提及数据集的直接下载方式。 📌 核心摘要这篇论文旨在解决传统脑编码模型局限于单模态、线性映射和被试特异性的问题，致力于构建一个能够统一预测不同大脑区域、不同个体对多模态刺激（视频）反应的通用模型。其核心方法是TRIBE模型，它分别从预训练的视频、音频和文本大模型中提取动态特征，并通过一个Transformer编码器融合这些特征，最后结合一个被试特定层来预测全脑1000个区域的fMRI BOLD信号。与已有方法相比，TRIBE的新颖之处在于它是首个同时实现了非线性融合（通过Transformer）、多被试联合训练和多模态输入的端到端脑编码模型。在Algonauts 2025竞赛中，TRIBE取得了第一名（平均编码分数0.2146），显著领先于其他团队。消融实验证明了多模态融合在高级联合皮层（如前额叶、顶枕颞叶皮层）的显著增益，以及Transformer和多被试训练的关键作用。该工作表明，多模态信息整合对于准确预测全脑活动至关重要，为构建整合性的人脑表征模型铺平了道路。其主要局限性在于：1) 在1000个脑区的粗粒度上建模，空间分辨率有限；2) 仅处理fMRI数据，缺乏更精确的时间分辨率；3) 仅基于4名被试的数据训练，泛化到新被试的能力尚未验证。 ...

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #视频摘要 #多模态模型 #自适应融合 #基准测试 #数据集 🔥 8.0/10 | 前25% | #视频摘要 | #多模态模型 | #自适应融合 #基准测试学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sumin Kim（首尔国立大学）[论文中注明与Hyemin Jeong, Mingu Kang并列第一作者] 通讯作者：Yoori Oh, Joonseok Lee（首尔国立大学）作者列表：Sumin Kim（首尔国立大学）、Hyemin Jeong（首尔国立大学）、Mingu Kang（首尔国立大学）、Yejin Kim（首尔国立大学）、Yoori Oh（首尔国立大学）、Joonseok Lee（首尔国立大学） 💡 毒舌点评亮点在于直击了现有视频摘要模型“静态融合”或“忽视音频/文本”的痛点，并用一个设计巧妙的“融合令牌”自适应地解决了这个问题，效果立竿见影，同时构建了首个大规模三模态数据集，功在千秋。短板是其核心框架（时间窗口注意力+跨模态注意力）并未跳出Transformer的范畴，创新更多是组合与适配，且“先打分再选段”的两阶段范式本身限制了端到端优化的可能，论文也在结论中坦承了这一局限。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/smkim37/TripleSumm。模型权重：未在论文正文中明确提及是否公开预训练模型权重。数据集：论文明确介绍了新数据集MoSu，并提供了数据获取信息（基于YouTube-8M，遵循特定筛选标准），论文中未明确给出直接下载链接，但提供了获取方法。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的超参数表（表I）、训练硬件、数据预处理流程（附录B.4）、评估协议（附录B.5）以及完整的消融研究，复现信息非常充分。引用的开源项目：依赖的主要预训练模型和库包括：CLIP (视觉编码器), RoBERTa (文本编码器), Audio Spectrogram Transformer (AST，音频编码器), Qwen2.5-VL-7B-Instruct (用于外部数据集生成文本描述), SwiGLU (FFN层), KTS (视频分割)。 📌 核心摘要本文针对视频摘要任务中现有方法无法动态、自适应地融合视觉、文本和音频模态信息的问题，提出了TripleSumm模型。该模型通过多尺度时间块（MST）在每一模态内部进行时序建模，并通过跨模态融合块（CMF）利用一个“融合令牌”作为中立查询，在每一帧动态选择和加权最相关的模态信息。与以往方法相比，其核心创新在于实现了帧级别的、自适应的模态重要性评估。为解决多模态训练数据稀缺的问题，论文还引入了首个大规模三模态视频摘要数据集MoSu，包含52,678个视频及其观看回放统计作为ground-truth。主要实验结果显示，TripleSumm在MoSu、Mr. HiSum、SumMe和TVSum四个基准上均显著超越了现有方法，例如在MoSu上，其Kendall‘s τ（0.351）和Spearman‘s ρ（0.472）大幅领先于此前最优的CFSum（0.277， 0.374）。该工作的实际意义在于提供了一个高效且可扩展的多模态视频摘要解决方案，并为未来研究奠定了可靠的大规模数据基础。主要局限性在于其摘要生成仍遵循“帧评分-片段选择”的传统两阶段流程，而非直接生成摘要片段，且模型架构的创新性主要体现在模块组合而非底层机制。 ...

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #音频大模型 #统一音频模型 #音频生成 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #统一音频模型 | #音频大模型 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jinchuan Tian (卡内基梅隆大学，CMU) 通讯作者：未明确指定，但根据作者排序和邮箱，Sang-gil Lee, Zhifeng Kong, Wei Ping (NVIDIA) 为关键联系人。作者列表：Jinchuan Tian (CMU)，Sang-gil Lee (NVIDIA)，Zhifeng Kong (NVIDIA)，Sreyan Ghosh (NVIDIA, 马里兰大学)，Arushi Goel (NVIDIA)，Chao-Han Huck Yang (NVIDIA)，Wenliang Dai (NVIDIA)，Zihan Liu (NVIDIA)，Hanrong Ye (NVIDIA)，Shinji Watanabe (CMU)，Mohammad Shoeybi (NVIDIA)，Bryan Catanzaro (NVIDIA)，Rafael Valle (NVIDIA)，Wei Ping (NVIDIA)。 💡 毒舌点评亮点：这篇论文成功证明了一个基于LLM的单一模型，在经过精心设计的数据混合和训练后，不仅能在音频生成上媲美甚至超越扩散模型，还能同时保持强大的音频理解与文本推理能力，这是音频领域迈向“大一统”模型的重要一步。短板：虽然提出了极具前景的“多模态推理”范式（如自我反思），但对其效果的评估几乎完全依赖主观听感测试，缺乏客观、可复现的自动指标来衡量推理链的质量和生成结果的可控性，使得这部分贡献的科学严谨性打了折扣。 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #3D动作生成 #流匹配 #检索增强生成 #对比学习 #多模态模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #3D动作生成 #检索增强生成学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Prerit Gupta†, Shourya Verma† （†表示同等贡献）通讯作者：未说明作者列表：Prerit Gupta（普渡大学计算机科学系）、Shourya Verma（普渡大学计算机科学系）、Ananth Grama（普渡大学计算机科学系）、Aniket Bera（普渡大学计算机科学系） 💡 毒舌点评这篇论文最大的亮点在于其“统一”的野心——用一个框架搞定交互式和反应式两种截然不同的双人生成任务，还通过LLM分解和RAG引入了相当精细的语义引导，技术整合度很高。但短板也很明显：它本质上是一个生成框架，其成功高度依赖于底层检索库的质量和多样性，一旦遇到描述模糊或罕见的舞蹈风格，RAG模块可能从“助手”变成“累赘”，论文中也承认了这一点。 🔗 开源详情代码：论文附录B承诺“Full code for this project along with the trained checkpoints for all tasks will be made open source and publicly available upon paper acceptance.”。当前未提供具体链接。模型权重：如上所述，承诺将提供训练好的检查点。数据集：论文中使用的三个数据集（InterHuman-AS, DD100, MDD）是现有公开或半公开数据集，论文未提及将发布新数据集。MDD是作者团队之前发布。 Demo：论文未提及在线演示。复现材料：论文提供了非常详细的实现细节（附录D）、模型参数（附录D.5）、损失函数公式（第3.5节）、训练配置（第4节实现细节）以及大量的消融实验结果（附录E、F），为复现提供了充分指导。引用的开源项目/模型：CLIP (Radford et al., 2021), Jukebox (Dhariwal et al., 2020), SMPL (Loper et al., 2015)。总结：论文对未来开源有明确计划和承诺，并提供了丰富的复现信息，但当前代码和权重尚未公开。 📌 核心摘要问题：生成由文本、音乐等多种模态条件驱动的协调、逼真的双人3D动作是一个难题。现有方法要么只处理交互式，要么只处理反应式任务，且通常只支持单一模态，缺乏统一框架。方法：论文提出了DualFlow，一个基于Rectified Flow的统一框架。其核心是设计了级联的“DualFlow块”，通过掩码机制灵活切换以处理交互式（双分支对称）和反应式（演员分支掩码）任务。引入了为双人动作设计的RAG模块，使用LLM将文本分解为空间关系、身体动作和节奏三个维度进行检索。创新点：(1) 首个统一交互与反应双人生成的单一框架；(2) 针对双人动作的LLM分解RAG模块；(3) 结合了对比学习的Rectified Flow目标和同步损失。实验结果：在MDD、InterHuman-AS和DD100数据集上的广泛评估表明，DualFlow在多数指标上达到SOTA。例如，在MDD数据集的交互任务中，DualFlow(Both)的FID为0.415（优于InterGen(Both)的0.426），R-Precision@3为0.513（优于InterGen(Both)的0.302）。推理速度方面，仅需20步即可完成，比需要50步的50-DDIM基线快约2.5倍。意义：为VR/AR伴侣、社交机器人和游戏AI等需要生成协调多人行为的应用提供了一个更通用、更高效的基础框架。局限性：性能依赖于检索库质量；在反应式设置中可能出现轻微的身体穿透；长序列生成可能有时序漂移。 🏗️ 模型架构图1展示了DualFlow如何统一处理交互式和反应式生成，并利用文本（经LLM分解）、音乐和检索样本作为条件输入。 ...

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #多模态模型 #基准测试 #大语言模型 ✅ 7.0/10 | 前25% | #多模态模型 | #基准测试 | #大语言模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hanoona Rasheed (MBZUAI) 通讯作者：未说明作者列表：Hanoona Rasheed (MBZUAI), Abdelrahman Shaker (MBZUAI), Anqi Tang (MBZUAI), Muhammad Maaz (MBZUAI), Ming-Hsuan Yang (University of California Merced, Google Research), Salman Khan (MBZUAI, Australian National University), Fahad Shahbaz Khan (MBZUAI, Linköping University) 💡 毒舌点评这篇论文精准地定义了视频理解领域一个“棘手但重要”的评测缺口——多步数学推理，并构建了迄今最贴合该场景的基准，其细粒度的步骤标注和错误分类为模型诊断提供了手术刀级别的工具。然而，其本质仍是一篇“数据集论文”，在模型创新和算法突破上着墨为零，且高度依赖LLM-as-a-Judge的评估方式也可能引入新的评估偏差。 ...

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Changli Tang (清华大学) 通讯作者：Chao Zhang (清华大学) 作者列表：Changli Tang (清华大学)， Qinfan Xiao (清华大学)， Ke Mei (腾讯微信视觉)， Tianyi Wang (腾讯微信视觉)， Fengyun Rao (腾讯微信视觉)， Chao Zhang (清华大学) 💡 毒舌点评亮点：该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白，其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果，显示了强大的跨模态理解与对齐能力。短板：模型的通用性在一定程度上受限于其基础架构（Qwen2.5-Omni），且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式，略显缺失。 ...

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #基准测试 #多模态模型 #音视频 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jack Hong（小红书）通讯作者：Shilin Yan（小红书）作者列表：Jack Hong（小红书）、Shilin Yan†（小红书）、Jiayin Cai（小红书）、Xiaolong Jiang（小红书）、Yao Hu（小红书）、Weidi Xie‡（上海交通大学） 💡 毒舌点评这篇论文的价值在于它像一盆冷水，明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远（最佳开源模型约25%，最强商用模型仅65.1%），而音频模态是普遍短板。不过，其评估形式局限于多选题，可能无法完全评估模型生成式理解和复杂推理的真实水平。 🔗 开源详情代码：论文提供了项目主页链接（https://jaaackhongggg.github.io/WorldSense），但未明确提及评估代码或数据处理脚本的开源仓库。模型权重：未提及。本文为评估基准，未提出新模型。数据集：已公开。WorldSense数据集可通过项目主页获取，采用CC BY-NC-SA 4.0许可证。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的评估提示词模板（附录A.4）、标注协议描述（3.3节和附录A.2）以及模型评估设置说明（4.1节和附录A.3），为复现评估结果提供了充分信息。论文中引用的开源项目：主要引用了作为数据源的FineVideo和MusicAVQA数据集，以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。论文中未提及开源计划：评估代码、质量控制自动化脚本。 📌 核心摘要问题：现有针对多模态大语言模型的评估基准大多忽略音频模态，或仅处理弱耦合的音视频信息，无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。方法核心：提出了WorldSense，首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频，设计了3,172个多选问答对，覆盖8大领域、67个子类和26种任务。新在哪里：与已有基准相比，WorldSense的创新在于：(i) 强调音视频模态的强耦合性，回答问题必须同时依赖两者；(ii) 覆盖真实世界多样化场景和音频类型（语音、环境声、音乐）；(iii) 采用高质量人工标注和严格的多重质量控制流程。主要实验结果：实验评估了多种主流多模态模型。结果显示，最佳开源多模态视频模型准确率仅为54.0%（Qwen3-Omni），而多数开源音视频模型表现接近随机猜测（约25%）。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明，加入原始音频相比仅用字幕能带来更大性能提升。实际意义：该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台，并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。主要局限性：基准采用多选题形式，在一定程度上限制了对模型生成式能力和开放性推理的评估；此外，尽管覆盖广泛，但视频和问题的分布可能仍无法完全代表所有真实世界场景。 🏗️ 模型架构本文的核心贡献是提出了一个评估基准（Benchmark），而非一个新的模型。因此，其“架构”指的是基准的设计框架。该框架主要由两部分构成：数据构建流水线和评估范式。 ...

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #跨模态 #音频问答 #模型评估 🔥 9.0/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #音频问答学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xingrui Wang (1, 2) - 1. Advanced Micro Devices (AMD)， 2. Johns Hopkins University 通讯作者：Jiang Liu (1) - Advanced Micro Devices (AMD) 作者列表：Xingrui Wang (AMD, Johns Hopkins University)、Jiang Liu (AMD，通讯作者)、Chao Huang (AMD, University of Rochester)、Xiaodong Yu (AMD)、Ze Wang (AMD)、Ximeng Sun (AMD)、Jialian Wu (AMD)、Alan Yuille (Johns Hopkins University)、Emad Barsoum (AMD)、Zicheng Liu (AMD) 💡 毒舌点评亮点：该论文精准打击了当前多模态大模型“看似通用，实则偏科”的痛点，其系统性地通过“模态置换”来测试模型是否真正在理解语义而非记忆模态关联，这种诊断思路比单纯刷分的基准更具洞察力。短板：论文像一份极其详尽的“体检报告”，清晰指出了模型的“病灶”（如音频理解弱、方向不平衡），但并未提供任何“治疗方案”（即如何构建更一致的模型），其价值完全依赖于后续研究者如何利用这份诊断报告。 ...

语音/音频论文速递 2026-05-02

语音/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜（4 篇，按分数降序）排名论文评分分档主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...