Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #音频场景理解 #多模态模型 #基准测试 #数据集 #开源工具 🔥 9.0/10 | 前25% | #音频场景理解 | #多模态模型 | #基准测试 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学, 南洋理工大学)(论文中为共同第一作者) 通讯作者:Xie Chen(上海交通大学, 上海创智学院)(论文中为共同通讯作者) 作者列表:Ziyang Ma(上海交通大学, 南洋理工大学)、Ruiyang Xu(上海交通大学)(共同第一作者)、Zhenghao Xing(香港中文大学)(共同第一作者)、Yunfei Chu(阿里集团, Qwen团队)、Yuxuan Wang(阿里集团, Qwen团队)、Jinzheng He(阿里集团, Qwen团队)、Jin Xu†(阿里集团, Qwen团队)(项目负责人)、Pheng-Ann Heng(香港中文大学)、Kai Yu(上海交通大学)、Junyang Lin(阿里集团, Qwen团队)、Eng Siong Chng(南洋理工大学)、Xie Chen‡(上海交通大学, 上海创智学院)(共同通讯作者) 💡 毒舌点评 亮点在于提出了一个从“侦探式”数据生成、到针对性模型训练、再到闭式基准评估的完整闭环方案,直面多模态描述中“细节-幻觉”权衡这一核心矛盾,系统性强且效果显著。短板则是“多模态细粒度描述生成”本身仍是一个相对垂直和小众的任务,且模型架构本身是基于现有骨干(Qwen2.5-Omni)的微调,并非底层架构创新。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 291 words

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #强化学习 #数据集 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhuoran Jin(中国科学院大学人工智能学院、中国科学院自动化研究所) 通讯作者:Jun Zhao(中国科学院大学人工智能学院、中国科学院自动化研究所) 作者列表:Zhuoran Jin(中国科学院大学人工智能学院、中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院、中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院、中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院、中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院、中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院、中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院、中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院、中国科学院自动化研究所) 💡 毒舌点评 亮点:这篇论文最大的价值在于“系统性”和“开创性”,它首次将奖励模型(RM)的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态,并引入了自由形式的偏好描述,填补了一个重要的空白。短板:虽然构建了庞大的框架,但其核心生成式奖励模型(R1)的探索稍显初步,仅用了3%的数据进行训练,且论文中对训练的具体超参数和硬件环境交代不够清晰,使得这个最具野心的部分在可复现性上打了一丝折扣。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/HongbangYuan/OmniReward 模型权重:论文提及将发布Omni-RewardModel,但未在正文中直接提供权重下载链接,通常这些链接会包含在代码仓库的README中。 数据集:Omni-RewardBench和Omni-RewardData均已公开,并提供了HuggingFace链接: https://hf.co/datasets/HongbangYuan/OmniRewardBench https://hf.co/datasets/jinzhuoran/OmniRewardData Demo:论文中未提及在线演示。 复现材料:论文详细描述了数据集构建流程、模型架构和评估协议,并在附录中提供了标注指南、质量控制细节等。但如前所述,缺乏训练硬件、具体超参数配置(如学习率、batch size、训练轮数)等细节。 引用的开源项目:论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型,并使用了GPT-4o进行数据生成。 📌 核心摘要 这篇论文旨在解决当前奖励模型(RM)面临的模态不平衡(主要支持文本和图像)和偏好刚性(仅学习固定二元偏好)两大挑战,提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分:(1)Omni-RewardBench:首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准,包含3725个高质量人工标注对;(2)Omni-RewardData:一个大规模多模态偏好数据集,包含248K通用偏好对和69K指令微调对,以提升模型对跨模态任务和动态偏好的泛化能力;(3)Omni-RewardModel:基于上述数据训练的两种全模态奖励模型,包括判别式(BT)和生成式(R1)版本。实验表明,Omni-RewardModel在Omni-RewardBench上取得了最优性能(w/ Ties设置下准确率65.36%),在VL-RewardBench等公开基准上也达到了或超过了SOTA水平,证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳,凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础,但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 243 words

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #多模态模型 #音频检索 #基准测试 #跨模态 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、快手科技、南方科技大学) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学、快手科技、南方科技大学)、Shengjun Zhang(快手科技)、Da Li(快手科技、中国科学院大学)、Yuxiao Luo(快手科技、北京大学)、Yan Wang(快手科技)、Di Xu(快手科技)、Biao Yang(快手科技)、Wei Yuan(快手科技)、Fan Yang(快手科技)、Zhihai He(南方科技大学)、Wenming Yang(清华大学) 💡 毒舌点评 本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白,并提出了一个扩展模型,其消融实验设计(如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式)颇具巧思,有力地论证了“显式音频语义”的关键性。然而,其模型的核心创新“Audio-as-Text”在工程上略显“取巧”,完全依赖于现有大模型(Qwen2-Audio)的能力,并未在音频表征学习本身提出新方法,且额外的转录步骤带来了显著的延迟开销。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/Kuaishou-Reasearch/OmniCVR,并声明将开源完整代码库。 模型权重:论文中声明将开源AudioVLM2Vec的模型权重。 数据集:论文中声明OmniCVR基准(包括160k+片段、50k+三元组和黄金测试集)将在发表后完全开源,数据集链接为:https://huggingface.co/datasets/Jun-Yang/OmniCVR。 Demo:论文中未提及。 复现材料:论文提供了详细的数据生成流程、所有使用的提示词(见附录G)、以及对训练设置(基于开源预训练权重)的描述,为复现提供了良好基础。但部分具体训练超参数未在文中说明。 论文中引用的开源项目/模型:Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。 📌 核心摘要 要解决什么问题:现有的组合视频检索(CoVR)基准和方法主要关注视觉与文本的对齐,系统性地忽略了音频模态(语音、音乐、环境声)在视频理解中的关键作用,导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。 方法核心是什么:论文提出了OmniCVR基准,这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时,提出了一种名为AudioVLM2Vec的模型,该模型通过将音频轨道转录为细粒度文本描述,并将其与视觉信息和用户查询一同输入大语言模型骨干,从而显式地注入音频语义。 与已有方法相比新在哪里:1) 任务定义:首次定义了“全模态组合检索”,涵盖视觉中心、音频中心和集成型查询;2) 数据构建:设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程;3) 模型架构:提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式,区别于其他“全模态”模型(如ImageBind、OmniEmbed)直接处理原始音频token的方式。 主要实验结果如何:AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如,在整体查询上R@1达到66.98%,比强基线VLM2Vec(38.44%)高出28.54个百分点;在音频中心查询上R@1达到77.2%,而VLM2Vec仅为12.4%。消融实验证明,移除源视频会导致性能暴跌,证实了任务对组合推理的严格要求;将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制,其R@1从13.6%大幅提升至32.7%。 实际意义是什么:该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准,揭示了当前最先进模型在音频理解和组合推理上的重大缺陷,并证明了将音频转化为语义文本是提升相关性能的有效途径,对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。 主要局限性是什么:1) 推理效率:引入的音频转录步骤显著增加了推理延迟(从1.72s增加到4.77s),限制了实时应用;2) 音频表征依赖:性能高度依赖于Qwen2-Audio的转录质量,可能引入偏差或错误;3) 任务范围:专注于检索任务,未探索音频修改指令的生成等更复杂的交互。 🏗️ 模型架构 本文主要提出AudioVLM2Vec模型,其架构是VLM2Vec的扩展。整体流程如下图所示: ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 300 words

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Caorui Li (南京大学, 东南大学) 通讯作者:Jiaheng Liu (南京大学) 作者列表:Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评 这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念(如强调音视频必须协同、设计原子推理链、多阶段质量过滤),为评估“真·多模态推理”设立了高标准。然而,短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板(音乐理解差、长视频融合弱),但并未提出任何解决这些问题的新模型或新方法,创新性停留在了评估体系的设计层面。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 292 words

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #音视频 #大语言模型 #对比学习 #音频问答 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Hanrong Ye(NVIDIA) 通讯作者:Hongxu Yin (§†∗), Pavlo Molchanov (§) (§ Equal Advisory, † Corresponding Authors, 均在NVIDIA) 作者列表:Hanrong Ye(NVIDIA), Chao-Han Huck Yang(NVIDIA), Arushi Goel(NVIDIA), Wei Huang(NVIDIA), Ligeng Zhu(NVIDIA), Yuanhang Su(NVIDIA), Sean Lin(NVIDIA), An-Chieh Cheng(NVIDIA), Zhen Wan(NVIDIA), Jinchuan Tian(NVIDIA), Yuming Lou(NVIDIA), Dong Yang(NVIDIA), Zhijian Liu(NVIDIA), Yukang Chen(NVIDIA), Ambrish Dantrey(NVIDIA), Ehsan Jahangiri(NVIDIA), Sreyan Ghosh(NVIDIA), Daguang Xu(NVIDIA), Ehsan Hosseini-Asl(NVIDIA), Danial Mohseni Taheri(NVIDIA), Vidya Murali(NVIDIA), Sifei Liu(NVIDIA), Yao Lu(NVIDIA), Oluwatobi Olabiyi(NVIDIA), Yu-Chiang Frank Wang(未说明), Rafael Valle(NVIDIA), Bryan Catanzaro(NVIDIA), Andrew Tao(NVIDIA), Song Han(NVIDIA), Jan Kautz(NVIDIA), Hongxu Yin§†∗(NVIDIA), Pavlo Molchanov§(NVIDIA)。所有作者均隶属于NVIDIA。 💡 毒舌点评 这篇论文的亮点在于其对“全模态对齐”问题的系统性工程化拆解:提出的三个模块(OmniAlignNet, TEG, CRTE)在消融实验中表现出清晰的递进效果,且“隐式+显式”数据合成策略为解决稀缺全模态数据提供了一个可复用的思路。短板则在于,作为一篇声称“开源”的旗舰工作,其论文中对模型具体参数、训练超参数(如学习率、优化器设置)、以及核心代码仓库的链接均未明确给出,极大地影响了其声称的可复现性承诺。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 388 words

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型合并 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongxian Wei(清华大学) 通讯作者:Lu Hou(华为诺亚方舟实验室),Chun Yuan(清华大学) 作者列表:Yongxian Wei(清华大学),Runxi Cheng(清华大学),Weike Jin(华为诺亚方舟实验室),Enneng Yang(中山大学),Li Shen(中山大学),Lu Hou(华为诺亚方舟实验室),Sinan Du(清华大学),Chun Yuan(清华大学),Xiaochun Cao(中山大学),Dacheng Tao(南洋理工大学) 💡 毒舌点评 亮点:论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白,并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法(OptMerge),实验充分且开源承诺良好。 短板:实验规模主要集中在1B和7B参数的模型上,对于当前主流的大参数量(如70B以上)多模态模型的合并效果、以及合并后模型的长期稳定性(如对话能力衰减)缺乏更深入的探讨。 🔗 开源详情 代码:论文明确提及“All code and checkpoints are publicly available here”,并提供了链接(here应为超链接,但当前文本中未显示具体URL)。因此,代码将开源。 模型权重:论文明确提及公开“checkpoints”,包括为基准训练的所有专家模型(VQA, Geometry, Chart, OCR, Grounding)在InternVL2.5和Qwen2-VL上的权重,以及模态合并实验中使用的视觉、音频、视频模型权重。 数据集:基准中使用的所有训练数据和评估数据均来自公开数据集(如Table 1所列),论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了详细的实现细节(附录C),包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行,提供了硬件参考。 引用的开源项目:论文依赖并引用了多个开源工具和模型,包括: 模型:InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。 评估工具:VLMEvalKit, LMMs-Eval。 合并工具:提到MergeKit。 框架:HuggingFace Transformers。 📌 核心摘要 要解决什么问题:现有模型合并研究缺乏针对多模态大语言模型(MLLM)的、能清晰划分其多种能力(如VQA、几何推理、图表理解等)并评估其模态融合效果的专用基准。同时,现有的数据驱动合并方法成本高昂,需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。 方法核心是什么:本文提出了OptMerge基准,包含从VQA到Grounding五类能力的训练数据集和评估集,覆盖了InternVL2.5(全微调)和Qwen2-VL(LoRA)两种设置。同时,提出了OptMerge算法,通过对任务向量进行低秩近似去噪,并基于任务向量间的交互损失来鲁棒地优化合并向量,以应对全微调和LoRA微调模型参数特性不同的挑战。 与已有方法相比新在哪里:(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge,通过SVD去噪和针对性的优化策略(全微调用Adam+中心化,LoRA用SGD+初始化为平均值)来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态,构建“全模态”语言模型。 主要实验结果如何: 能力合并:OptMerge在基准上平均性能提升2.48%,在InternVL2.5(全微调)上达到57.44分(最佳),在Qwen2-VL(LoRA)上达到63.30分(最佳),超越了需要数据混合训练的基线(如InternVL2.5混合训练为57.66分)。 模态合并:合并视觉、音频、视频三个模态模型后,在Audio-VQA任务上平均得分66.88,显著高于单个模态模型(视觉63.16,音频37.75,视频64.11)。 消融实验:对LoRA合并,从WUDI Merging(58.65)逐步加入SGD(降至48.88)、初始化(升至63.08)、低秩近似(最终63.30)各组件,验证了各设计的有效性。 实际模型:合并从Hugging Face收集的4个不同专长模型(如GRPO数学模型、Pokemon模型),平均分达66.70,超过了最强单体模型(63.17)。 实际意义是什么:证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本,还能通过“数据free”的方式整合不同模态的编码器,为快速集成社区开源模型、构建全模态模型提供了新思路。 主要局限性是什么:实验主要在中等规模模型(1B, 7B)上进行,对更大规模模型(如32B以上)的验证(虽然补充了32B实验但不深入)和计算效率的更全面评估有待加强。此外,基准所用的训练数据均为公开数据集,可能无法完全代表工业界复杂的私有数据场景。 🏗️ 模型架构 本文的核心贡献并非提出一个新的多模态模型架构,而是提出一种模型合并(Merging)的方法论,用于将多个已训练好的、具有不同能力或模态的多模态大语言模型(MLLM)融合成一个统一的模型。因此,其“架构”主要指合并后模型的构成方式。 ...

2026-05-02 · 更新于 2026-05-21 · 3 min · 581 words

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #空间音频 #声源定位 #音频大模型 #链式思维 #数据集 ✅ 7.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #链式思维 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Subrata Biswas(Worcester Polytechnic Institute 电气与计算机工程系) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute 电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute 电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute 电气与计算机工程系) 💡 毒舌点评 这篇论文在音频大语言模型的空间推理能力上迈出了重要一步,其核心亮点在于巧妙地将环境几何信息作为辅助监督注入到音频编码器中,从而在推理时无需几何输入就能获得几何感知的表征,这是一个既实用又优雅的设计。然而,整个系统的基石——BiDepth数据集完全依赖于合成数据,尽管论文通过在真实世界数据集上的零样本测试部分缓解了这一担忧,但模拟环境与复杂真实声场之间的鸿沟仍是其走向大规模应用的首要挑战。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/BASHLab/OWL。 模型权重:论文中未提及公开已训练好的模型权重。 数据集:论文宣布将发布BiDepth数据集,但当前提供的文本中未说明具体发布平台和获取方式。 Demo:论文中未提及在线演示。 复现材料:论文在附录中详细提供了SAGE和OWL的训练超参数、硬件配置、优化器设置等复现所需的关键信息。明确指出使用了LLaMA-2-7B和AudioMAE作为初始化。 引用的开源项目:论文中明确使用了SoundSpaces v2.0、Matterport3D、AudioSet、LLaMA-2-7B、AudioMAE、Q-Former等开源工具或模型。 📌 核心摘要 问题:现有的音频大语言模型在空间推理上能力不足,主要依赖粗糙的二元线索(左/右)和单步推理,缺乏对声学环境几何结构(如房间布局、混响)的显式建模,导致方向和距离估计精度低,且推理过程不可解释。 方法核心:提出OWL模型,它由一个几何感知的音频编码器SAGE和一个集成了空间感知链式思维(CoT) 的大语言模型组成。SAGE在训练时利用全景深度图和模拟房间冲激响应(RIR)来学习声学-几何对齐特征,但推理时仅需音频。OWL则通过从感知QA到多步推理的课程学习,支持细粒度的12扇区方向(DoA)估计和可解释的推理。 新意:与之前的工作(如BAT)相比,OWL的创新在于:a) SAGE编码器首次引入几何感知监督,将音频特征与3D空间结构对齐;b) 空间感知CoT,使中间推理步骤锚定于声源位置,提供可解释的推理路径;c) 构建并发布了首个大规模、包含{双耳音频、RIR、深度图、QA}四元组的BiDepth数据集(约110万个QA对)。 主要结果:在BiDepth和SpatialSoundQA两个基准上,SAGE将平均DoA误差降低了11°,OWL在空间推理QA准确率上比BAT最高提升了25%。具体地,在BiDepth上,OWL w CoT在单源/双源事件检测mAP为33.37/17.26,12扇区DoA准确率为46.17,空间推理(Type III)二分类准确率(BA)为77.89,CoT推理(Type IV)BA为76.53,全面超越包括Gemini在内的基线。 实际意义:为构建能理解三维声学场景、进行细粒度空间推理的AI听觉智能体奠定了基础,对机器人导航、智能家居、人机交互等应用有潜在价值。 主要局限性:核心训练数据集BiDepth是合成的,虽然通过了部分真实世界数据的零样本验证,但其在极端混响、复杂遮挡等真实场景下的泛化能力仍需进一步验证。推理任务目前限于单轮QA。 🏗️ 模型架构 OWL系统包含两个核心模块:SAGE编码器和OWL语言模型管道。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 406 words

PACE: Pretrained Audio Continual Learning

📄 PACE: Pretrained Audio Continual Learning #音频分类 #持续学习 #预训练 #参数高效微调 🔥 8.5/10 | 前25% | #音频分类 | #持续学习 | #预训练 #参数高效微调 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chang Li*(清华大学心理与认知科学系) 通讯作者:Liyuan Wang†(清华大学心理与认知科学系) 作者列表:Chang Li(清华大学心理与认知科学系)、Kanglei Zhou(清华大学心理与认知科学系)、Liyuan Wang†(清华大学心理与认知科学系) 💡 毒舌点评 亮点在于其开创性地为预训练音频模型的持续学习建立了首个系统性基准,并深刻剖析了音频域区别于视觉域的独特挑战(如严重的表示偏移),问题定位准、分析透彻。短板则是所提出的PACE方法涉及多个阶段和组件(如FSA、MSA、边界正则化),整体框架略显复杂,其在更极端的跨域(如从音乐到语音)或超大规模任务序列下的泛化能力和计算开销有待进一步验证。 🔗 开源详情 代码:论文在“Reproducibility statement”中承诺“upon acceptance”发布代码库,但未提供具体链接。论文中未提及当前可用的代码链接。 模型权重:未提及公开的预训练或适配后的模型权重。 数据集:论文中使用的6个CL基准均为公开数据集(ESC-50, UrbanSound8K, SC2, TIMIT, VocalSet),但论文中未说明是否提供了额外的划分或处理脚本。 Demo:未提及在线演示。 复现材料:提供了极其详细的训练细节(附录D)、超参数敏感性分析(附录E.6)、算法伪代码(附录B)和数据集统计(表5),为复现提供了充分信息。 论文中引用的开源项目:引用了多个开源工具和模型,包括预训练音频模型EAT(Chen et al., 2024)、SSLAM(Alex et al., 2025),以及持续学习方法RanPAC(McDonnell et al., 2023)、ACL(Zhuang et al., 2022)、LoRASub(Liu & Chang, 2025)等。 总结:论文中提及了明确的开源计划,并提供了详实的复现指南,但具体的代码和权重发布需等待论文接收。 📌 核心摘要 问题:预训练音频模型(PTMs)在现实世界中数据分布持续变化的场景下,直接应用现有的视觉域持续学习(CL)方法(如PEFT)性能会严重下降。根本原因在于音频骨干网络更强调低层频谱细节而非结构化语义,导致严重的“上游-下游表示不对齐”,引发跨会话的剧烈表示偏移和灾难性遗忘。 方法核心:提出PACE框架,分三阶段解决上述问题。阶段1:改进的首次适应(FSA),通过限制头部学习率、后期层LoRA适配和替换解析分类器,稳定地适配第一个任务,避免表示饱和。阶段2:自适应多会话子空间正交PEFT,允许骨干网络在后续会话中进行受控适应,同时通过梯度投影到先前表示的零空间来约束表示漂移。阶段3:骨干网络固定,进入稳定期。 新在何处:首次系统构建了音频CL基准;首次深入分析了音频CL特有的挑战(表示饱和与偏移);提出了首个专门针对音频PTMs特性的、兼顾可塑性与稳定性的统一CL框架PACE,融合了音频特定的PEFT策略、子空间投影和基于时频掩码的边界感知正则化。 实验结果:在3个粗粒度(ESC-50, US8K, SC2)和3个细粒度(TIMIT-2, TIMIT-3, VocalSet)共6个音频CL基准上,PACE大幅超越所有基线方法。在细粒度任务上优势尤为明显,如在TIMIT-2上比次优基线RanPAC高5.32%,在VocalSet上高6.26%。PACE将性能与联合训练上界的差距显著缩小(例如,在ESC-50上差距仅0.75%,在VocalSet上差距从13.8%降至7.57%)。关键消融实验验证了FSA、MSA、梯度投影和边界正则化的必要性。 实际意义:为构建能够持续适应新环境、新说话人、新声音的健壮、可扩展的音频智能系统(如语音助手、智能环境监测)提供了理论基础和有效方法。 主要局限性:框架的多阶段设计和多个超参数(如Nstop, ρlayer)增加了部署和调优的复杂性。方法对计算资源(特别是早期阶段的骨干网络适应)有一定要求。对于领域差距极大(如从环境声到音乐)的超复杂CL序列的有效性有待验证。 🏗️ 模型架构 PACE是一个分阶段的统一框架,旨在重新对齐预训练音频骨干网络的表示以适应持续学习目标。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 384 words

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #知识蒸馏 #基准测试 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #强化学习 | #知识蒸馏 #基准测试 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shu-wen Yang (台湾大学电气工程学系研究生院 / 字节跳动 Seed) 通讯作者:Lu Lu (字节跳动 Seed), Hung-yi Lee (台湾大学电气工程学系) 作者列表: Shu-wen Yang (台湾大学电气工程学系研究生院, 字节跳动 Seed) Ming Tu (字节跳动 Seed) Andy T. Liu (字节跳动 Seed) Xinghua Qu (字节跳动 Seed) Hung-yi Lee (台湾大学电气工程学系) Lu Lu (字节跳动 Seed) Yuxuan Wang (字节跳动 Seed) Yonghui Wu (字节跳动 Seed) 💡 毒舌点评 这篇论文最大的亮点在于精准定义了“语音对话模型听不懂弦外之音”这一痛点,并系统性地设计了从评估基准(ParaS2SBench)到强化学习训练(ParaS2SAlign)的完整解决方案,堪称“对症下药”的范例。但其短板也明显:核心的强化学习框架(GRPO)和奖励模型蒸馏技术并非首次提出,创新更多体现在将这些技术成功适配到一个全新的、定义良好的问题域中,而非算法本身的突破;此外,自动评估器虽与人类评分高度相关,但其“风格幻觉”问题可能并未完全根除,依然依赖于其精心构建的特征提取流水线。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 361 words

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #音视频 #自回归模型 #低资源 #预训练 🔥 8.5/10 | 前25% | #语音识别 | #自回归模型 | #音视频 #低资源 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Alexandros Haliassos(NatWest AI Research & Imperial College London) 通讯作者:未明确说明 作者列表:Alexandros Haliassos(NatWest AI Research & Imperial College London),Rodrigo Mira(NatWest AI Research),Stavros Petridis(NatWest AI Research & Imperial College London) 💡 毒舌点评 这篇论文把CTC这个“老实人”的稳健和注意力“艺术家”的表达力在伪标签阶段强行撮合,用“老师傅带路”的方式训练学生,既省了计算又抗了噪,想法相当机灵。但可惜的是,这种“撮合”在分布外场景下也暴露了局限性,当CTC预测本身出错时,错误的传导依然存在,且论文对更极端的分布偏移(如完全不同的语言或方言)验证不足。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 371 words