MARS-Sep: Multimodal-Aligned Reinforced Sound Separation

📄 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation #语音分离 #强化学习 #跨模态 #基准测试 ✅ 7.5/10 | 前25% | #语音分离 | #强化学习 | #跨模态 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zihan Zhang(浙江大学) 通讯作者:Tao Jin(浙江大学) 作者列表:Zihan Zhang(浙江大学)、Xize Cheng(浙江大学)、Zhennan Jiang(中国科学院自动化研究所)、Dongjie Fu(浙江大学)、Jingyuan Chen(浙江大学)、Zhou Zhao(浙江大学)、Tao Jin(浙江大学) 💡 毒舌点评 亮点:这篇论文巧妙地将大语言模型对齐的核心思想——基于人类偏好的强化学习(RLHF)——“移植”到了声音分离任务中,并设计了与之匹配的多模态奖励模型和渐进式微调策略,为解决“分离干净但语义不匹配”的“指标困境”提供了新思路。短板:论文在与生成式分离模型(如FlowSep)对比时,虽然指出了自身在指标稳定性上的优势,但在某些语义相似度指标(如CLAP score)上并未全面超越,且声称的“一致性增益”在部分设置(如MUSIC数据集的音频查询)中较为微弱,对方法的普适优势论述可再严谨。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/mars-sep/MARS-Sep。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用公开数据集VGGSound和MUSIC,论文中未提及是否发布其预处理后的“clean+”子集。 Demo:提供分离样本在线演示页面:https://mars-sep.github.io/。 复现材料:附录详细给出了训练细节(B部分)、SI-SDR计算(C部分)、RL训练细节(D部分)和所有超参数设置,复现信息充分。 引用的开源项目:依赖ImageBind作为多模态编码器,使用museval工具计算SDR指标。 📌 核心摘要 问题:通用声音分离存在“指标困境”,即模型在优化信噪比(SDR)等信号指标时,可能保留语义上不相关的干扰声,导致输出与用户查询意图不符。 核心方法:本文提出MARS-Sep,一个强化学习(RL)框架。它将声音分离重新定义为随机决策过程:基础分离模型作为“策略”,输出时频掩码;一个经过渐进对齐的多模态编码器作为“奖励模型”,评估分离音频与查询(文本/音频/图像)的语义一致性;通过基于裁剪信任区域的策略优化(类似PPO)来最大化奖励。 创新点:1)首创性地将查询条件声音分离形式化为受多模态奖励引导的RL问题。2)设计了分解Beta分布掩码策略,便于探索与利用的平衡。3)引入渐进式对齐训练,逐步增强ImageBind编码器的跨模态判别能力,为RL提供稳定可靠的奖励信号。 主要实验结果:在VGGSound-clean+和MUSIC-clean+两个数据集上,在文本、音频、图像及组合查询等多种条件下,MARS-Sep相比强基线(如OmniSep, AudioSep)均取得一致提升。例如,在VGGSound-clean+文本查询任务中,MARS-Sep的CLAP分数为9.03±0.94,高于OmniSep的8.98±0.89;SI-SDRi为4.55±0.44,高于OmniSep的4.38±0.48。消融研究证实了RL和渐进对齐策略的各自贡献。 实际意义:该方法能产生语义更准确、听感更干净的声音分离结果,更符合用户意图,有望提升下游任务(如语音识别、内容理解)的性能。 主要局限性:训练过程引入了RL的复杂性,需调优更多超参数(如β分布浓度κ、KL系数λ_KL);奖励模型依赖预训练的ImageBind,其能力上限可能影响最终性能;在部分设置下,与基线的提升幅度有限。 🏗️ 模型架构 MARS-Sep的整体架构(如图1所示)是一个强化学习循环系统,包含三个核心组件:基础策略(策略网络)、奖励模型和优化过程。 图1:MARS-Sep的强化学习循环。分离器从Beta分布策略中生成随机掩码动作,冻结的快照作为旧策略用于稳定优化。多模态奖励(来自音频、文本、视觉嵌入)指导策略更新,熵和KL正则化增强探索和稳定性。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 385 words

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #模型评估 #语音翻译 🔥 8.0/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sara Papi(Fondazione Bruno Kessler (FBK)) 通讯作者:未明确说明 作者列表:Sara Papi (FBK), Maike Züfle (Karlsruhe Institute of Technology (KIT)), Marco Gaido (FBK), Beatrice Savoldi (FBK), Danni Liu (KIT), Ioannis Douros (Translated), Luisa Bentivogli (FBK), Jan Niehues (KIT) 💡 毒舌点评 亮点是设计了一个非常全面、平行且高质量的跨语言多模态指令跟随基准,填补了现有评估体系的关键空白;短板在于受限于计算成本,评估的开源模型参数规模普遍偏小(≤20B),且未包含任何闭源前沿商业模型的系统性对比(仅测试了Gemini 2.5 Flash),削弱了对当前技术天花板的揭示能力。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 349 words

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 #数据集 #语音问答 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #语音问答 | #模型评估 | #基准测试 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dingdong WANG(香港中文大学) 通讯作者:未说明(论文未明确指定通讯作者;通讯邮箱为第一作者邮箱:dingdongwang@link.cuhk.edu.hk) 作者列表:Dingdong WANG (香港中文大学), Junan Li (香港中文大学), Jincenzi Wu (香港中文大学), Dongchao Yang (香港中文大学), Xueyuan Chen (香港中文大学), Tianhua Zhang (香港中文大学), Helen M. Meng (香港中文大学) 💡 毒舌点评 亮点:该工作像一位严谨的语言学教授,为“只会听个响”的语音大模型们精心设计了一场覆盖音素、韵律、修辞等全方位的“期末统考”,诊断出当前模型普遍存在的“语音学文盲”和“韵律感知障碍”,指明了未来训练的重点补课方向。 短板:考试形式局限于“单选题”,虽然高效,但无法评估模型在真实对话中灵活运用这些能力进行生成或交互的水平,有点“高分低能”的潜在风险。 🔗 开源详情 代码:论文中未提及代码仓库链接。评估用的脚本或提示词模板未开源。 模型权重:未提及。论文评估了多个现有模型,但未提供任何自己训练的模型。 数据集:公开。论文明确提供了数据集获取链接:https://huggingface.co/datasets/ddwang2000/MMSU。 Demo:未提及。 复现材料:论文在附录中详细说明了数据构建过程(自定义录音、人工审核)、任务定义、任务示例、错误案例分析以及使用的GPT提示词。这为理解基准构建和部分复现提供了丰富信息,但完整的评估流程复现仍需额外工作。 论文中引用的开源项目:论文依赖并引用了多个开源数据集和模型,包括:CommonVoice, MELD, GigaSpeech, Switchboard, SLURP, SEAME, Fake-or-Real, RAVDESS, CoVoST 2, EDACC, VCTK, CHILDES, LogicBench等(完整列表见附录B)。评估的模型包括BLSP, Qwen-Audio, Kimi-Audio, Gemini, GPT-4o-Audio等众多开源和闭源SpeechLLMs。 📌 核心摘要 问题:当前语音大模型(SpeechLLMs)的评估基准普遍存在三大缺陷:日常语音现象(如不流畅、语调变化、重音)覆盖不足、过度依赖合成语音导致不真实、以及评估设计缺乏语言学理论基础。这导致无法全面、真实地评估模型对语音的深层理解能力。 方法核心:本文提出了MMSU,一个全新的、基于语言学理论的语音理解与推理基准。它系统性地整合了语音学、韵律学、修辞学、句法学、语义学和副语言学等理论,构建了包含感知(24个任务) 和推理(23个任务) 两大维度、共计47个任务的评估框架。数据包含5000个精心设计的音频-问题-答案三元组。 创新与对比:与之前基准(如VoiceBench, ADU-Bench, MMAU)相比,MMSU的新颖之处在于:(a) 理论驱动:首次系统性地将语言学原理融入任务设计;(b) 全面覆盖:涵盖了前所未有的语音现象广度(从音素辨析到双关语理解);(c) 数据真实性:主要采用真实世界录音(76.74%开源数据,13.44%专业录制),仅少量使用TTS补充。 实验结果:论文对22个先进的SpeechLLMs和OmniLLMs进行了评估。关键结果如下表所示(数据摘自论文表3): 模型 类别 大小 感知准确率(%) 推理准确率(%) 总体平均准确率(%) Human 人类基线 - 91.24 86.77 89.72 Gemini-1.5-Pro 闭源 - 46.10 76.16 60.68 Qwen2.5-Omni-7B 开源 7B 42.50 79.83 60.57 Kimi-Audio 开源 7B 43.52 76.03 59.28 GPT-4o-Audio 闭源 - 39.67 71.96 56.38 * 人类表现(89.72%)远超所有模型,最优模型Gemini-1.5-Pro(60.68%)与其存在近30%的差距,凸显了任务的挑战性。 * 开源模型(如Qwen2.5-Omni-7B)性能已接近甚至超越部分闭源模型(如GPT-4o-Audio)。 * 关键发现:模型在感知任务(尤其是音系学相关任务)上表现普遍较差,与人类“推理难于感知”的认知模式相反;噪声注入后性能下降轻微,证明模型确实在使用音频信号。图5展示了模型在噪声条件下的鲁棒性对比。 实际意义:MMSU为社区提供了一个标准化、高难度的“体检工具”,能有效诊断出当前SpeechLLMs在精细语音感知和复杂语义推理上的短板(特别是音系处理能力),为下一代更类人的语音交互模型研发指明了优化方向。 主要局限性:a) 基准主要覆盖英语和中英混合语音,对其他语言的评估能力未体现;b) 评估形式为固定选项的多选题,可能无法完全反映模型开放式生成或对话中的理解能力;c) 尽管追求真实,数据中仍有9.82%的合成语音。 🏗️ 模型架构 本文提出的是基准测试(Benchmark),而非一个新的模型。因此,其“架构”指的是基准本身的层级结构设计。 MMSU的架构设计是一个三层的树状分类体系,旨在系统性地评估语音理解能力: ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 229 words

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #音频场景理解 #多模态模型 #基准测试 #数据集 #开源工具 🔥 9.0/10 | 前25% | #音频场景理解 | #多模态模型 | #基准测试 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学, 南洋理工大学)(论文中为共同第一作者) 通讯作者:Xie Chen(上海交通大学, 上海创智学院)(论文中为共同通讯作者) 作者列表:Ziyang Ma(上海交通大学, 南洋理工大学)、Ruiyang Xu(上海交通大学)(共同第一作者)、Zhenghao Xing(香港中文大学)(共同第一作者)、Yunfei Chu(阿里集团, Qwen团队)、Yuxuan Wang(阿里集团, Qwen团队)、Jinzheng He(阿里集团, Qwen团队)、Jin Xu†(阿里集团, Qwen团队)(项目负责人)、Pheng-Ann Heng(香港中文大学)、Kai Yu(上海交通大学)、Junyang Lin(阿里集团, Qwen团队)、Eng Siong Chng(南洋理工大学)、Xie Chen‡(上海交通大学, 上海创智学院)(共同通讯作者) 💡 毒舌点评 亮点在于提出了一个从“侦探式”数据生成、到针对性模型训练、再到闭式基准评估的完整闭环方案,直面多模态描述中“细节-幻觉”权衡这一核心矛盾,系统性强且效果显著。短板则是“多模态细粒度描述生成”本身仍是一个相对垂直和小众的任务,且模型架构本身是基于现有骨干(Qwen2.5-Omni)的微调,并非底层架构创新。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 291 words

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #强化学习 #数据集 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhuoran Jin(中国科学院大学人工智能学院、中国科学院自动化研究所) 通讯作者:Jun Zhao(中国科学院大学人工智能学院、中国科学院自动化研究所) 作者列表:Zhuoran Jin(中国科学院大学人工智能学院、中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院、中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院、中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院、中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院、中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院、中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院、中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院、中国科学院自动化研究所) 💡 毒舌点评 亮点:这篇论文最大的价值在于“系统性”和“开创性”,它首次将奖励模型(RM)的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态,并引入了自由形式的偏好描述,填补了一个重要的空白。短板:虽然构建了庞大的框架,但其核心生成式奖励模型(R1)的探索稍显初步,仅用了3%的数据进行训练,且论文中对训练的具体超参数和硬件环境交代不够清晰,使得这个最具野心的部分在可复现性上打了一丝折扣。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/HongbangYuan/OmniReward 模型权重:论文提及将发布Omni-RewardModel,但未在正文中直接提供权重下载链接,通常这些链接会包含在代码仓库的README中。 数据集:Omni-RewardBench和Omni-RewardData均已公开,并提供了HuggingFace链接: https://hf.co/datasets/HongbangYuan/OmniRewardBench https://hf.co/datasets/jinzhuoran/OmniRewardData Demo:论文中未提及在线演示。 复现材料:论文详细描述了数据集构建流程、模型架构和评估协议,并在附录中提供了标注指南、质量控制细节等。但如前所述,缺乏训练硬件、具体超参数配置(如学习率、batch size、训练轮数)等细节。 引用的开源项目:论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型,并使用了GPT-4o进行数据生成。 📌 核心摘要 这篇论文旨在解决当前奖励模型(RM)面临的模态不平衡(主要支持文本和图像)和偏好刚性(仅学习固定二元偏好)两大挑战,提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分:(1)Omni-RewardBench:首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准,包含3725个高质量人工标注对;(2)Omni-RewardData:一个大规模多模态偏好数据集,包含248K通用偏好对和69K指令微调对,以提升模型对跨模态任务和动态偏好的泛化能力;(3)Omni-RewardModel:基于上述数据训练的两种全模态奖励模型,包括判别式(BT)和生成式(R1)版本。实验表明,Omni-RewardModel在Omni-RewardBench上取得了最优性能(w/ Ties设置下准确率65.36%),在VL-RewardBench等公开基准上也达到了或超过了SOTA水平,证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳,凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础,但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 243 words

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #多模态模型 #音频检索 #基准测试 #跨模态 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、快手科技、南方科技大学) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学、快手科技、南方科技大学)、Shengjun Zhang(快手科技)、Da Li(快手科技、中国科学院大学)、Yuxiao Luo(快手科技、北京大学)、Yan Wang(快手科技)、Di Xu(快手科技)、Biao Yang(快手科技)、Wei Yuan(快手科技)、Fan Yang(快手科技)、Zhihai He(南方科技大学)、Wenming Yang(清华大学) 💡 毒舌点评 本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白,并提出了一个扩展模型,其消融实验设计(如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式)颇具巧思,有力地论证了“显式音频语义”的关键性。然而,其模型的核心创新“Audio-as-Text”在工程上略显“取巧”,完全依赖于现有大模型(Qwen2-Audio)的能力,并未在音频表征学习本身提出新方法,且额外的转录步骤带来了显著的延迟开销。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Kuaishou-Reasearch/OmniCVR,并声明将开源完整代码库。 模型权重:论文中声明将开源AudioVLM2Vec的模型权重。 数据集:论文中声明OmniCVR基准(包括160k+片段、50k+三元组和黄金测试集)将在发表后完全开源,数据集链接为:https://huggingface.co/datasets/Jun-Yang/OmniCVR。 Demo:论文中未提及。 复现材料:论文提供了详细的数据生成流程、所有使用的提示词(见附录G)、以及对训练设置(基于开源预训练权重)的描述,为复现提供了良好基础。但部分具体训练超参数未在文中说明。 论文中引用的开源项目/模型:Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。 📌 核心摘要 要解决什么问题:现有的组合视频检索(CoVR)基准和方法主要关注视觉与文本的对齐,系统性地忽略了音频模态(语音、音乐、环境声)在视频理解中的关键作用,导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。 方法核心是什么:论文提出了OmniCVR基准,这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时,提出了一种名为AudioVLM2Vec的模型,该模型通过将音频轨道转录为细粒度文本描述,并将其与视觉信息和用户查询一同输入大语言模型骨干,从而显式地注入音频语义。 与已有方法相比新在哪里:1) 任务定义:首次定义了“全模态组合检索”,涵盖视觉中心、音频中心和集成型查询;2) 数据构建:设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程;3) 模型架构:提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式,区别于其他“全模态”模型(如ImageBind、OmniEmbed)直接处理原始音频token的方式。 主要实验结果如何:AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如,在整体查询上R@1达到66.98%,比强基线VLM2Vec(38.44%)高出28.54个百分点;在音频中心查询上R@1达到77.2%,而VLM2Vec仅为12.4%。消融实验证明,移除源视频会导致性能暴跌,证实了任务对组合推理的严格要求;将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制,其R@1从13.6%大幅提升至32.7%。 实际意义是什么:该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准,揭示了当前最先进模型在音频理解和组合推理上的重大缺陷,并证明了将音频转化为语义文本是提升相关性能的有效途径,对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。 主要局限性是什么:1) 推理效率:引入的音频转录步骤显著增加了推理延迟(从1.72s增加到4.77s),限制了实时应用;2) 音频表征依赖:性能高度依赖于Qwen2-Audio的转录质量,可能引入偏差或错误;3) 任务范围:专注于检索任务,未探索音频修改指令的生成等更复杂的交互。 🏗️ 模型架构 本文主要提出AudioVLM2Vec模型,其架构是VLM2Vec的扩展。整体流程如下图所示: ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 300 words

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Caorui Li (南京大学, 东南大学) 通讯作者:Jiaheng Liu (南京大学) 作者列表:Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评 这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念(如强调音视频必须协同、设计原子推理链、多阶段质量过滤),为评估“真·多模态推理”设立了高标准。然而,短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板(音乐理解差、长视频融合弱),但并未提出任何解决这些问题的新模型或新方法,创新性停留在了评估体系的设计层面。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 292 words

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型合并 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongxian Wei(清华大学) 通讯作者:Lu Hou(华为诺亚方舟实验室),Chun Yuan(清华大学) 作者列表:Yongxian Wei(清华大学),Runxi Cheng(清华大学),Weike Jin(华为诺亚方舟实验室),Enneng Yang(中山大学),Li Shen(中山大学),Lu Hou(华为诺亚方舟实验室),Sinan Du(清华大学),Chun Yuan(清华大学),Xiaochun Cao(中山大学),Dacheng Tao(南洋理工大学) 💡 毒舌点评 亮点:论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白,并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法(OptMerge),实验充分且开源承诺良好。 短板:实验规模主要集中在1B和7B参数的模型上,对于当前主流的大参数量(如70B以上)多模态模型的合并效果、以及合并后模型的长期稳定性(如对话能力衰减)缺乏更深入的探讨。 🔗 开源详情 代码:论文明确提及“All code and checkpoints are publicly available here”,并提供了链接(here应为超链接,但当前文本中未显示具体URL)。因此,代码将开源。 模型权重:论文明确提及公开“checkpoints”,包括为基准训练的所有专家模型(VQA, Geometry, Chart, OCR, Grounding)在InternVL2.5和Qwen2-VL上的权重,以及模态合并实验中使用的视觉、音频、视频模型权重。 数据集:基准中使用的所有训练数据和评估数据均来自公开数据集(如Table 1所列),论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了详细的实现细节(附录C),包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行,提供了硬件参考。 引用的开源项目:论文依赖并引用了多个开源工具和模型,包括: 模型:InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。 评估工具:VLMEvalKit, LMMs-Eval。 合并工具:提到MergeKit。 框架:HuggingFace Transformers。 📌 核心摘要 要解决什么问题:现有模型合并研究缺乏针对多模态大语言模型(MLLM)的、能清晰划分其多种能力(如VQA、几何推理、图表理解等)并评估其模态融合效果的专用基准。同时,现有的数据驱动合并方法成本高昂,需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。 方法核心是什么:本文提出了OptMerge基准,包含从VQA到Grounding五类能力的训练数据集和评估集,覆盖了InternVL2.5(全微调)和Qwen2-VL(LoRA)两种设置。同时,提出了OptMerge算法,通过对任务向量进行低秩近似去噪,并基于任务向量间的交互损失来鲁棒地优化合并向量,以应对全微调和LoRA微调模型参数特性不同的挑战。 与已有方法相比新在哪里:(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge,通过SVD去噪和针对性的优化策略(全微调用Adam+中心化,LoRA用SGD+初始化为平均值)来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态,构建“全模态”语言模型。 主要实验结果如何: 能力合并:OptMerge在基准上平均性能提升2.48%,在InternVL2.5(全微调)上达到57.44分(最佳),在Qwen2-VL(LoRA)上达到63.30分(最佳),超越了需要数据混合训练的基线(如InternVL2.5混合训练为57.66分)。 模态合并:合并视觉、音频、视频三个模态模型后,在Audio-VQA任务上平均得分66.88,显著高于单个模态模型(视觉63.16,音频37.75,视频64.11)。 消融实验:对LoRA合并,从WUDI Merging(58.65)逐步加入SGD(降至48.88)、初始化(升至63.08)、低秩近似(最终63.30)各组件,验证了各设计的有效性。 实际模型:合并从Hugging Face收集的4个不同专长模型(如GRPO数学模型、Pokemon模型),平均分达66.70,超过了最强单体模型(63.17)。 实际意义是什么:证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本,还能通过“数据free”的方式整合不同模态的编码器,为快速集成社区开源模型、构建全模态模型提供了新思路。 主要局限性是什么:实验主要在中等规模模型(1B, 7B)上进行,对更大规模模型(如32B以上)的验证(虽然补充了32B实验但不深入)和计算效率的更全面评估有待加强。此外,基准所用的训练数据均为公开数据集,可能无法完全代表工业界复杂的私有数据场景。 🏗️ 模型架构 本文的核心贡献并非提出一个新的多模态模型架构,而是提出一种模型合并(Merging)的方法论,用于将多个已训练好的、具有不同能力或模态的多模态大语言模型(MLLM)融合成一个统一的模型。因此,其“架构”主要指合并后模型的构成方式。 ...

2026-05-02 · 更新于 2026-05-20 · 3 min · 581 words

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #知识蒸馏 #基准测试 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #强化学习 | #知识蒸馏 #基准测试 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shu-wen Yang (台湾大学电气工程学系研究生院 / 字节跳动 Seed) 通讯作者:Lu Lu (字节跳动 Seed), Hung-yi Lee (台湾大学电气工程学系) 作者列表: Shu-wen Yang (台湾大学电气工程学系研究生院, 字节跳动 Seed) Ming Tu (字节跳动 Seed) Andy T. Liu (字节跳动 Seed) Xinghua Qu (字节跳动 Seed) Hung-yi Lee (台湾大学电气工程学系) Lu Lu (字节跳动 Seed) Yuxuan Wang (字节跳动 Seed) Yonghui Wu (字节跳动 Seed) 💡 毒舌点评 这篇论文最大的亮点在于精准定义了“语音对话模型听不懂弦外之音”这一痛点,并系统性地设计了从评估基准(ParaS2SBench)到强化学习训练(ParaS2SAlign)的完整解决方案,堪称“对症下药”的范例。但其短板也明显:核心的强化学习框架(GRPO)和奖励模型蒸馏技术并非首次提出,创新更多体现在将这些技术成功适配到一个全新的、定义良好的问题域中,而非算法本身的突破;此外,自动评估器虽与人类评分高度相关,但其“风格幻觉”问题可能并未完全根除,依然依赖于其精心构建的特征提取流水线。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 361 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室)、Kaicheng Luo(阿里巴巴集团通义实验室)、Wen Wang(阿里巴巴集团通义实验室)、Qian Chen(阿里巴巴集团通义实验室)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴集团通义实验室)、Jieping Ye(阿里巴巴集团通义实验室)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路,清晰且有效,为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是,其提出的全新AudioCanvas基准数据集虽然是必要的,但作为“裁判员”的同时,自己也是“运动员”,这使得核心结论的公信力部分依赖于数据集构建的客观性,且报告的部分指标(如在某些空间或美学指标上超越了真实音频)需要更谨慎的解释。 🔗 开源详情 代码:论文承诺将开源完整训练脚本和配置文件,但当前未提供代码仓库链接。 模型权重:论文承诺将公开所有模型权重(音频基础模型、微调后的VideoLLaMA2等),但未提供下载地址。 数据集:论文承诺将公开AudioCanvas基准数据集,但未说明具体获取方式。 Demo:论文未提及在线演示。 复现材料:附录D提供了极其详细的实现细节,包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数,以及CoT生成和微调的提示词模板,复现信息非常充分。 论文中引用的开源项目:VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro(API), MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要 要解决什么问题:视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度,但现有方法使用单一损失函数导致目标相互纠缠,且缺乏与人类偏好对齐。 方法核心是什么:提出PrismAudio框架,首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块(语义、时间、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。 与已有方法相比新在哪里:1) 首次在V2A中使用分解式CoT与多维RL奖励对应,解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法,通过随机窗口的混合ODE-SDE采样,在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。 主要实验结果如何:在自建的AudioCanvas基准和VGGSound测试集上,PrismAudio在所有四个感知维度上均达到了SOTA水平。例如,在AudioCanvas上,与基线ThinkSound相比,语义对齐度(CLAP)从0.48提升至0.52,时间同步性(DeSync)从0.80大幅改善至0.36,美学质量(CE)从4.10提升至4.26,空间误差(CRW)从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT,多维度奖励优于单维度奖励。 实际意义是什么:为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。 主要局限性是什么:框架复杂度较高,依赖于多个预训练模型(如VideoLLaMA2、各种奖励模型)。实验中报告的部分客观指标(如空间/美学)超越了真实音频,这可能源于对不完美代理指标的过度优化,其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段,建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...

2026-05-02 · 更新于 2026-05-20 · 2 min · 397 words