OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #多模态模型 #音频检索 #基准测试 #跨模态 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、快手科技、南方科技大学) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学、快手科技、南方科技大学)、Shengjun Zhang(快手科技)、Da Li(快手科技、中国科学院大学)、Yuxiao Luo(快手科技、北京大学)、Yan Wang(快手科技)、Di Xu(快手科技)、Biao Yang(快手科技)、Wei Yuan(快手科技)、Fan Yang(快手科技)、Zhihai He(南方科技大学)、Wenming Yang(清华大学) 💡 毒舌点评 本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白,并提出了一个扩展模型,其消融实验设计(如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式)颇具巧思,有力地论证了“显式音频语义”的关键性。然而,其模型的核心创新“Audio-as-Text”在工程上略显“取巧”,完全依赖于现有大模型(Qwen2-Audio)的能力,并未在音频表征学习本身提出新方法,且额外的转录步骤带来了显著的延迟开销。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Kuaishou-Reasearch/OmniCVR,并声明将开源完整代码库。 模型权重:论文中声明将开源AudioVLM2Vec的模型权重。 数据集:论文中声明OmniCVR基准(包括160k+片段、50k+三元组和黄金测试集)将在发表后完全开源,数据集链接为:https://huggingface.co/datasets/Jun-Yang/OmniCVR。 Demo:论文中未提及。 复现材料:论文提供了详细的数据生成流程、所有使用的提示词(见附录G)、以及对训练设置(基于开源预训练权重)的描述,为复现提供了良好基础。但部分具体训练超参数未在文中说明。 论文中引用的开源项目/模型:Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。 📌 核心摘要 要解决什么问题:现有的组合视频检索(CoVR)基准和方法主要关注视觉与文本的对齐,系统性地忽略了音频模态(语音、音乐、环境声)在视频理解中的关键作用,导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。 方法核心是什么:论文提出了OmniCVR基准,这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时,提出了一种名为AudioVLM2Vec的模型,该模型通过将音频轨道转录为细粒度文本描述,并将其与视觉信息和用户查询一同输入大语言模型骨干,从而显式地注入音频语义。 与已有方法相比新在哪里:1) 任务定义:首次定义了“全模态组合检索”,涵盖视觉中心、音频中心和集成型查询;2) 数据构建:设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程;3) 模型架构:提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式,区别于其他“全模态”模型(如ImageBind、OmniEmbed)直接处理原始音频token的方式。 主要实验结果如何:AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如,在整体查询上R@1达到66.98%,比强基线VLM2Vec(38.44%)高出28.54个百分点;在音频中心查询上R@1达到77.2%,而VLM2Vec仅为12.4%。消融实验证明,移除源视频会导致性能暴跌,证实了任务对组合推理的严格要求;将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制,其R@1从13.6%大幅提升至32.7%。 实际意义是什么:该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准,揭示了当前最先进模型在音频理解和组合推理上的重大缺陷,并证明了将音频转化为语义文本是提升相关性能的有效途径,对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。 主要局限性是什么:1) 推理效率:引入的音频转录步骤显著增加了推理延迟(从1.72s增加到4.77s),限制了实时应用;2) 音频表征依赖:性能高度依赖于Qwen2-Audio的转录质量,可能引入偏差或错误;3) 任务范围:专注于检索任务,未探索音频修改指令的生成等更复杂的交互。 🏗️ 模型架构 本文主要提出AudioVLM2Vec模型,其架构是VLM2Vec的扩展。整体流程如下图所示: ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 300 words

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Caorui Li (南京大学, 东南大学) 通讯作者:Jiaheng Liu (南京大学) 作者列表:Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评 这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念(如强调音视频必须协同、设计原子推理链、多阶段质量过滤),为评估“真·多模态推理”设立了高标准。然而,短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板(音乐理解差、长视频融合弱),但并未提出任何解决这些问题的新模型或新方法,创新性停留在了评估体系的设计层面。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 292 words

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #音视频 #大语言模型 #对比学习 #音频问答 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Hanrong Ye(NVIDIA) 通讯作者:Hongxu Yin (§†∗), Pavlo Molchanov (§) (§ Equal Advisory, † Corresponding Authors, 均在NVIDIA) 作者列表:Hanrong Ye(NVIDIA), Chao-Han Huck Yang(NVIDIA), Arushi Goel(NVIDIA), Wei Huang(NVIDIA), Ligeng Zhu(NVIDIA), Yuanhang Su(NVIDIA), Sean Lin(NVIDIA), An-Chieh Cheng(NVIDIA), Zhen Wan(NVIDIA), Jinchuan Tian(NVIDIA), Yuming Lou(NVIDIA), Dong Yang(NVIDIA), Zhijian Liu(NVIDIA), Yukang Chen(NVIDIA), Ambrish Dantrey(NVIDIA), Ehsan Jahangiri(NVIDIA), Sreyan Ghosh(NVIDIA), Daguang Xu(NVIDIA), Ehsan Hosseini-Asl(NVIDIA), Danial Mohseni Taheri(NVIDIA), Vidya Murali(NVIDIA), Sifei Liu(NVIDIA), Yao Lu(NVIDIA), Oluwatobi Olabiyi(NVIDIA), Yu-Chiang Frank Wang(未说明), Rafael Valle(NVIDIA), Bryan Catanzaro(NVIDIA), Andrew Tao(NVIDIA), Song Han(NVIDIA), Jan Kautz(NVIDIA), Hongxu Yin§†∗(NVIDIA), Pavlo Molchanov§(NVIDIA)。所有作者均隶属于NVIDIA。 💡 毒舌点评 这篇论文的亮点在于其对“全模态对齐”问题的系统性工程化拆解:提出的三个模块(OmniAlignNet, TEG, CRTE)在消融实验中表现出清晰的递进效果,且“隐式+显式”数据合成策略为解决稀缺全模态数据提供了一个可复用的思路。短板则在于,作为一篇声称“开源”的旗舰工作,其论文中对模型具体参数、训练超参数(如学习率、优化器设置)、以及核心代码仓库的链接均未明确给出,极大地影响了其声称的可复现性承诺。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 388 words

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型合并 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongxian Wei(清华大学) 通讯作者:Lu Hou(华为诺亚方舟实验室),Chun Yuan(清华大学) 作者列表:Yongxian Wei(清华大学),Runxi Cheng(清华大学),Weike Jin(华为诺亚方舟实验室),Enneng Yang(中山大学),Li Shen(中山大学),Lu Hou(华为诺亚方舟实验室),Sinan Du(清华大学),Chun Yuan(清华大学),Xiaochun Cao(中山大学),Dacheng Tao(南洋理工大学) 💡 毒舌点评 亮点:论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白,并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法(OptMerge),实验充分且开源承诺良好。 短板:实验规模主要集中在1B和7B参数的模型上,对于当前主流的大参数量(如70B以上)多模态模型的合并效果、以及合并后模型的长期稳定性(如对话能力衰减)缺乏更深入的探讨。 🔗 开源详情 代码:论文明确提及“All code and checkpoints are publicly available here”,并提供了链接(here应为超链接,但当前文本中未显示具体URL)。因此,代码将开源。 模型权重:论文明确提及公开“checkpoints”,包括为基准训练的所有专家模型(VQA, Geometry, Chart, OCR, Grounding)在InternVL2.5和Qwen2-VL上的权重,以及模态合并实验中使用的视觉、音频、视频模型权重。 数据集:基准中使用的所有训练数据和评估数据均来自公开数据集(如Table 1所列),论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了详细的实现细节(附录C),包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行,提供了硬件参考。 引用的开源项目:论文依赖并引用了多个开源工具和模型,包括: 模型:InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。 评估工具:VLMEvalKit, LMMs-Eval。 合并工具:提到MergeKit。 框架:HuggingFace Transformers。 📌 核心摘要 要解决什么问题:现有模型合并研究缺乏针对多模态大语言模型(MLLM)的、能清晰划分其多种能力(如VQA、几何推理、图表理解等)并评估其模态融合效果的专用基准。同时,现有的数据驱动合并方法成本高昂,需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。 方法核心是什么:本文提出了OptMerge基准,包含从VQA到Grounding五类能力的训练数据集和评估集,覆盖了InternVL2.5(全微调)和Qwen2-VL(LoRA)两种设置。同时,提出了OptMerge算法,通过对任务向量进行低秩近似去噪,并基于任务向量间的交互损失来鲁棒地优化合并向量,以应对全微调和LoRA微调模型参数特性不同的挑战。 与已有方法相比新在哪里:(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge,通过SVD去噪和针对性的优化策略(全微调用Adam+中心化,LoRA用SGD+初始化为平均值)来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态,构建“全模态”语言模型。 主要实验结果如何: 能力合并:OptMerge在基准上平均性能提升2.48%,在InternVL2.5(全微调)上达到57.44分(最佳),在Qwen2-VL(LoRA)上达到63.30分(最佳),超越了需要数据混合训练的基线(如InternVL2.5混合训练为57.66分)。 模态合并:合并视觉、音频、视频三个模态模型后,在Audio-VQA任务上平均得分66.88,显著高于单个模态模型(视觉63.16,音频37.75,视频64.11)。 消融实验:对LoRA合并,从WUDI Merging(58.65)逐步加入SGD(降至48.88)、初始化(升至63.08)、低秩近似(最终63.30)各组件,验证了各设计的有效性。 实际模型:合并从Hugging Face收集的4个不同专长模型(如GRPO数学模型、Pokemon模型),平均分达66.70,超过了最强单体模型(63.17)。 实际意义是什么:证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本,还能通过“数据free”的方式整合不同模态的编码器,为快速集成社区开源模型、构建全模态模型提供了新思路。 主要局限性是什么:实验主要在中等规模模型(1B, 7B)上进行,对更大规模模型(如32B以上)的验证(虽然补充了32B实验但不深入)和计算效率的更全面评估有待加强。此外,基准所用的训练数据均为公开数据集,可能无法完全代表工业界复杂的私有数据场景。 🏗️ 模型架构 本文的核心贡献并非提出一个新的多模态模型架构,而是提出一种模型合并(Merging)的方法论,用于将多个已训练好的、具有不同能力或模态的多模态大语言模型(MLLM)融合成一个统一的模型。因此,其“架构”主要指合并后模型的构成方式。 ...

2026-05-02 · 更新于 2026-06-19 · 3 min · 581 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室)、Kaicheng Luo(阿里巴巴集团通义实验室)、Wen Wang(阿里巴巴集团通义实验室)、Qian Chen(阿里巴巴集团通义实验室)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴集团通义实验室)、Jieping Ye(阿里巴巴集团通义实验室)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路,清晰且有效,为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是,其提出的全新AudioCanvas基准数据集虽然是必要的,但作为“裁判员”的同时,自己也是“运动员”,这使得核心结论的公信力部分依赖于数据集构建的客观性,且报告的部分指标(如在某些空间或美学指标上超越了真实音频)需要更谨慎的解释。 🔗 开源详情 代码:论文承诺将开源完整训练脚本和配置文件,但当前未提供代码仓库链接。 模型权重:论文承诺将公开所有模型权重(音频基础模型、微调后的VideoLLaMA2等),但未提供下载地址。 数据集:论文承诺将公开AudioCanvas基准数据集,但未说明具体获取方式。 Demo:论文未提及在线演示。 复现材料:附录D提供了极其详细的实现细节,包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数,以及CoT生成和微调的提示词模板,复现信息非常充分。 论文中引用的开源项目:VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro(API), MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要 要解决什么问题:视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度,但现有方法使用单一损失函数导致目标相互纠缠,且缺乏与人类偏好对齐。 方法核心是什么:提出PrismAudio框架,首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块(语义、时间、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。 与已有方法相比新在哪里:1) 首次在V2A中使用分解式CoT与多维RL奖励对应,解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法,通过随机窗口的混合ODE-SDE采样,在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。 主要实验结果如何:在自建的AudioCanvas基准和VGGSound测试集上,PrismAudio在所有四个感知维度上均达到了SOTA水平。例如,在AudioCanvas上,与基线ThinkSound相比,语义对齐度(CLAP)从0.48提升至0.52,时间同步性(DeSync)从0.80大幅改善至0.36,美学质量(CE)从4.10提升至4.26,空间误差(CRW)从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT,多维度奖励优于单维度奖励。 实际意义是什么:为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。 主要局限性是什么:框架复杂度较高,依赖于多个预训练模型(如VideoLLaMA2、各种奖励模型)。实验中报告的部分客观指标(如空间/美学)超越了真实音频,这可能源于对不完美代理指标的过度优化,其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段,建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 397 words

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #时频分析 #跨模态 ✅ 7.0/10 | 前25% | #音频问答 | #多模态模型 | #时频分析 #跨模态 学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kun Li (University of Twente, Netherlands; 工作完成于 IT University of Copenhagen, Denmark) 通讯作者:Sami Sebastian Brandt (IT University of Copenhagen, Denmark) 作者列表:Kun Li(University of Twente, IT University of Copenhagen)、Michael Ying Yang(University of Bath)、Sami Sebastian Brandt(IT University of Copenhagen) 💡 毒舌点评 亮点:本文最大的优点在于“系统性”和“针对性”——它没有孤立地提出一个模块,而是构建了一个从早期查询引导到中期时空频交互、再到后期上下文推理的完整流水线,并且为每个阶段都找到了扎实的动机(例如,用频率特征解决视觉模糊问题)。短板:尽管在总分上超越了前作,但在Visual QA(特别是位置相关问题)子任务上仍略逊于使用了对象检测器等先验知识的方法(如QA-TIGER),这暗示其“纯频率视角”在需要精细空间推理的场景中可能存在天花板,创新性更多体现在对已知技术的巧妙整合与优化上。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 286 words

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Pengfei Zhang (香港科技大学(广州)) 通讯作者:Li Liu (香港科技大学(广州),邮箱:avrillliu@hkust-gz.edu.cn) 作者列表:Pengfei Zhang(香港科技大学(广州)),Tianxin Xie(未说明),Minghao Yang(未说明),Li Liu(香港科技大学(广州)) 💡 毒舌点评 这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器(Thinker)主动识别诊断弱点并指导生成器合成针对性数据,这比简单的过采样或数据增强要高明得多,且在数据集稀缺的医疗场景下思路很对路。短板则在于,虽然名为“Agent”,但其中的LLM规划器更多扮演了静态调度器的角色,论文对其“自主性”(如在线从诊断反馈中学习并调整策略)的展示和验证不足,削弱了Agent这一概念的冲击力;另外,多模态融合中,文本临床叙事的加入虽然带来了提升,但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情 代码:提供。论文中给出了GitHub仓库链接:https://github.com/zpforlove/Resp-Agent 模型权重:提供。论文中给出了HuggingFace模型权重链接:https://huggingface.co/AustinZhang/resp-agent-models 数据集:提供。论文中给出了HuggingFace数据集链接:https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo:论文中未提及在线演示。 复现材料:提供了训练和推理脚本、配置文件、完整的超参数设置(附录C)、训练细节和检查点,复现信息非常充分。 论文中引用的开源项目:依赖的开源工具/模型包括:DeepSeek系列模型(V3.2-Exp, R1-Distill-Qwen-7B)、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要 这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战:单模态表示的信息损失和标注数据的稀缺与不均衡。为此,论文提出了Resp-Agent,一个由中央规划器(Thinker-A2CA)编排的多智能体闭环系统。核心方法包括:1)一个可控生成器(Resp-MLLM),通过模态注入将大语言模型改造为多模态生成器,并结合流匹配解码器合成指定病理内容和声学风格的呼吸音;2)一个融合诊断器,通过模态编织将临床文本与音频嵌入在输入层融合,并利用稀疏全局注意力(音频锚点)捕捉瞬态声学事件。作为基础,论文构建了大规模多模态基准数据集Resp-229k(22.9万条记录)。主要实验结果表明,Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录,在Resp-229k跨域测试集上,其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式,但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。 模型/设置 数据集 指标 数值 备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频,原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后 主要创新在于:1)首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统;2)创建了Resp-229k大规模、带临床文本的呼吸音基准,填补了数据空白;3)设计了融合文本与音频的模态编织诊断器,通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 346 words

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #语音对话系统 #多模态模型 #端到端 #数据集 #机器人 🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siyin Wang(复旦大学,上海创新研究院) 通讯作者:Jinlan Fu (N/A), Xipeng Qiu (复旦大学,上海创新研究院)(论文标注†为共同通讯作者) 作者列表:Siyin Wang(复旦大学,上海创新研究院)、Jinlan Fu(新加坡国立大学)、Feihong Liu(复旦大学)、Xinzhe He(复旦大学)、Huangxuan Wu(复旦大学)、Junhao Shi(复旦大学,上海创新研究院)、Kexin Huang(复旦大学)、Zhaoye Fei(复旦大学)、Jingjing Gong(上海创新研究院)、Zuxuan Wu(复旦大学,上海创新研究院)、Yu-Gang Jiang(复旦大学)、See-Kiong Ng(新加坡国立大学)、Tat-Seng Chua(新加坡国立大学)、Xipeng Qiu(复旦大学,上海创新研究院) 💡 毒舌点评 亮点:这篇论文真正让机器人“听懂”了对话的弦外之音(比如“嗯…橙汁”的嫌弃语气)并主动发起询问确认,而不是傻等一句“把可乐放桌上”的明确指令,这在人机交互的自然性上是个重要进步。短板:虽然构建了庞大的合成数据集,但真实世界交互的复杂性(比如多人同时说话、声音重叠、远场噪声)与合成数据之间的差距可能仍然存在,论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。 🔗 开源详情 代码:提供GitHub仓库链接:https://github.com/OpenMOSS/RoboOmni 模型权重:未提及是否公开预训练权重,但论文中提到将“开源模型检查点”。 数据集:公开OmniAction数据集,承诺将开源获取。 Demo:未提及在线演示。 复现材料:提供了非常详细的训练细节(硬件、超参数、优化器设置)、数据集构建流程(三阶段)、实验设置(基线模型描述)和附录中的更多示例。 引用的开源项目:论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。 📌 核心摘要 问题:现有的视觉-语言-动作(VLA)模型严重依赖用户发出的显式、直接的指令(如文本命令),但在真实场景中,人类意图常通过对话上下文、语气、环境音等隐式线索表达,机器人缺乏主动推断和确认意图的能力。 方法核心:提出RoboOmni,一个基于端到端全模态大语言模型(如Qwen2.5-Omni)的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频(包含语音和副语言线索、环境声)和文本对话历史,统一进行意图推理、生成确认性语音回复和执行机器人动作。 新意:a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架,无需ASR管道,保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction(14万 episodes),包含6种上下文指令类型。 主要实验结果:在模拟基准OmniAction-LIBERO上,RoboOmni平均成功率85.6%,大幅超越最强文本基线NORA(25.9%)。在真实人类语音测试(OmniAction-LIBERO-Real)中,成功率76.6%,优于π0(73.8%)。真实机器人实验成功率73.9%,远超ASR+VLA基线(52.2%)。消融实验证明,移除音频后意图识别准确率从88.89%暴跌至11.11%。 实际意义:推动了机器人从“命令执行者”向“主动协作者”的转变,为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。 主要局限性:a) 依赖大规模合成数据,虽然通过真人录音补充,但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座(Qwen2.5-Omni)的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。 🏗️ 模型架构 RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构,所有组件通过自回归语言模型骨干统一。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 246 words

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #多模态模型 #语音翻译 #大语言模型 #多语言 #数据增强 🔥 8.0/10 | 前25% | #语音翻译 | #多模态模型 | #大语言模型 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yexing Du(哈尔滨工业大学、鹏城实验室) 通讯作者:Youcheng Pan(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学、鹏城实验室) (论文中明确标注{panych,xiangy}@pcl.ac.cn, mliu@ir.hit.edu.cn) 作者列表:Yexing Du(哈尔滨工业大学,鹏城实验室), Youcheng Pan(鹏城实验室), Zekun Wang(哈尔滨工业大学), Zheng Chu(哈尔滨工业大学), Yichong Huang(哈尔滨工业大学), Kaiyuan Liu(哈尔滨工业大学,鹏城实验室), Bo Yang(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学,鹏城实验室), Bing Qin(哈尔滨工业大学,鹏城实验室) 💡 毒舌点评 本文巧妙地将语音合成(TTS)和多模态大语言模型(MLLM)结合,提出了“语音引导机器翻译(SMT)”框架,并创新性地引入自监督进化机制来缓解数据稀缺问题,最终在多个基准上取得显著成绩。不过,其自监督进化机制中用于筛选“正负样本”的核心标准(COMET分数差异)略显简单粗暴,且迭代过程可能陷入局部最优,对“语音韵律信息如何具体帮助翻译”的深层机理剖析仍显不足。 ...

2026-05-02 · 更新于 2026-06-19 · 3 min · 599 words

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #音频问答 #强化学习 #长期记忆 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #强化学习 #长期记忆 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lin Long(浙江大学) 通讯作者:Yuan Lin(字节跳动Seed) 作者列表: Lin Long(浙江大学), Yichen He(字节跳动Seed), Wentao Ye(浙江大学), Yiyuan Pan(卡内基梅隆大学Robotics Institute), Yuan Lin(字节跳动Seed,通讯作者), Hang Li(字节跳动Seed), Junbo Zhao(浙江大学), Wei Li(字节跳动Seed) 💡 毒舌点评 亮点: 该工作构建了一个从“感知(看/听)”到“记忆(构建实体中心图谱)”再到“推理(多轮检索与回答)”的完整类人闭环框架,并为此贡献了首个侧重记忆推理能力的长视频问答基准(M3-Bench),系统性很强。短板: 记忆构建模块严重依赖外部的人脸识别、说话人分离等工具,其鲁棒性和端到端的可训练性未充分探讨;此外,所采用的DAPO强化学习训练需要极高的计算资源(未说明具体成本),可能限制其广泛复现。 🔗 开源详情 代码:论文中提到代码将开源,提供了GitHub仓库链接:https://github.com/ByteDance-Seed/m3-agent。 模型权重:承诺发布记忆化模型(memory-7b-sft)和控制模型(control-32b-rl)的检查点。 数据集:承诺发布完整的M3-Bench基准,包括视频和问答标注。 Demo:论文中未提及在线演示。 复现材料:论文承诺提供训练数据、代码、训练细节(包括超参数表)和附录说明。附录中详细列出了记忆节点的数据结构、工具实现、示范数据合成流程等关键复现信息。 引用的开源项目:论文中引用的依赖项目包括InsightFace(人脸识别)、ERes2NetV2(说话人验证模型)、OpenAI的文本嵌入模型(text-embedding-3-large),以及作为基础模型的Qwen2.5-Omni和Qwen3。 📌 核心摘要 问题:现有长视频理解方法多为离线处理有限长视频,且关注低层感知而非高层知识积累;智能体缺乏像人类一样在持续交互中构建和利用长期记忆进行推理的能力。 方法:提出M3-Agent框架,包含并行工作的记忆化与控制流程。记忆化流程持续处理视频流,生成情景记忆(具体事件)和语义记忆(如人物身份、属性、关系),并以实体为中心的图谱进行组织。控制流程根据指令,通过强化学习(DAPO)训练的策略模型,自主进行多轮推理并检索记忆图谱来完成任务。 新意:1) 提出模拟人类记忆机制的、实体中心化的多模态长期记忆架构;2) 设计基于强化学习的多轮检索推理控制策略;3) 构建首个评估记忆能力的多模态智能体基准M3-Bench。 结果:在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上,M3-Agent均优于最强基线。例如,在M3-Bench-robot上比最强基线(MA-LMM)高6.3%,在M3-Bench-web上比Gemini-GPT4o-Hybrid高7.7%。消融实验证明了长期记忆(尤其是语义记忆)和强化学习训练的关键作用。 方法 M3-Bench-robot M3-Bench-web VideoMME-Long MA-LMM (在线视频理解最佳) 24.4 24.3 17.3 Gemini-GPT4o-Hybrid (混合Agent最佳) 24.0 41.2 56.5 M3-Agent 30.7 48.9 61.8 意义:为构建具备长期记忆和推理能力的多模态智能体提供了新的框架思路和评估标准,推动智能体从“单次感知”向“经验积累”进化。 局限:记忆模块依赖外部预训练工具(人脸识别、说话人分离);强化学习训练成本高昂;记忆图谱的规模化管理和高效检索策略有待进一步研究。 🏗️ 模型架构 M3-Agent的整体架构如图1所示,由多模态大语言模型(MLLM)和多模态长期记忆两大核心部分组成,并支持两个并行的工作流程:记忆化流程与控制流程。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 347 words