模型评估 | 语音/音乐/音频论文速递

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频 #生成模型 #多模态模型 ✅ 6.5/10 | 前40% | #基准测试 | #模型评估 | #音视频 #生成模型 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构共同第一作者：Yujie Wei（复旦大学），Yujin Han（香港大学），Zhekai Chen（香港大学），Yongming Li（复旦大学）项目负责人：Shiwei Zhang（阿里巴巴通义实验室）通讯作者：Hongming Shan（复旦大学），Xihui Liu（香港大学）作者列表（按原文顺序）： Yujie Wei (1，复旦大学) Yujin Han (2*，香港大学) Zhekai Chen (2*，香港大学) Yongming Li (1*，复旦大学) Kaixun Jiang (1，复旦大学) Zhihang Liu (3，阿里巴巴通义实验室) Quanhao Li (1，复旦大学) Zhiwu Qing (3，阿里巴巴通义实验室) Xiang Wang (3，阿里巴巴通义实验室) Zhen Xing (3，阿里巴巴通义实验室) Ruihang Chu (3，阿里巴巴通义实验室) Lingyi Hong (1，复旦大学) Yefei He (4，浙江大学) Junjie Zhou (3，阿里巴巴通义实验室) Junqiu Yu (1，复旦大学) Yang Shi (5，北京大学) Difan Zou (2，香港大学) Kai Zhu (3，阿里巴巴通义实验室) Shiwei Zhang (3†，阿里巴巴通义实验室，项目负责人) Yingya Zhang (3，阿里巴巴通义实验室) Yu Liu (3，阿里巴巴通义实验室) Xihui Liu (2🖂，香港大学，通讯作者) Hongming Shan (1🖂，复旦大学，通讯作者) 💡 毒舌点评亮点：论文精准切入“多镜头音视频（MSAV）生成”这一前沿评测空白，提出了首个综合性基准MSAVBench。其数据设计（四维度：视频、音频、镜头、参考）和评估框架（自校正、分层评分、工具增强代理）的系统性与前瞻性值得肯定，对19个模型的评估也提供了有价值的生态诊断。短板：论文的核心贡献在于构建一个评测“系统”和“报告”，而非提出新的生成模型或基础算法。其创新性更偏向工程设计和方法论集成，在追求算法理论突破的顶会中，原创性“硬度”不足。同时，对评估框架自身的深入分析（如不同VLM的影响、成本分析）略显仓促，对评测结果的解读存在过度泛化的风险。 ...

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

📄 CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook #多模态模型 #对比学习 #向量量化 #零样本 #模型评估 #解耦表示学习 🔥 8.6/10 | 前15% | #多模态模型 | #对比学习 | #向量量化 #零样本 | arxiv 学术质量 7/8 | 影响力 0.8/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Zeyu Chen（Visual AI Lab, The University of Hong Kong）通讯作者：Kai Han（Visual AI Lab, The University of Hong Kong）作者列表：Zeyu Chen（Visual AI Lab, The University of Hong Kong）、Jie Li（Visual AI Lab, The University of Hong Kong）、Kai Han（Visual AI Lab, The University of Hong Kong） 💡 毒舌点评这篇论文在解决多模态对齐中的“硬对齐”信息损失和模态不平衡问题上，提出了一种工程上优雅且实验上非常扎实的方案。“共享-特定”解耦表示加上“组合码本”的设计，确实巧妙地平衡了对齐保真度与信息完整性。其实验覆盖之广（9种模态，17个数据集）令人印象深刻，堪称多模态领域的“暴力美学”。然而，其理论根基稍显薄弱：为何“均匀分布”与“正交性”假设是解耦的最优或必要约束？组合VQ在理论上为何优于其他容量扩展方案（如稀疏MoE）？这些更多依赖经验证据而非第一性原理。此外，论文声称“无需大规模完全配对数据”，但其训练仍高度依赖现有配对数据集，这一claim需审慎看待。 ...

ARIA: A Diagnostic Framework for Music Training Data Attribution

📄 ARIA: A Diagnostic Framework for Music Training Data Attribution #音乐生成 #模型评估 #版权分析 #数据归因 #诊断框架 ✅ 6.1/10 | 前25% | #音乐生成 | #模型评估 | #版权分析 #数据归因 | arxiv 学术质量 5.2/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Changheon Han（Chalmers University of Technology and University of Gothenburg）通讯作者：Changheon Han（Chalmers University of Technology and University of Gothenburg）作者列表：Changheon Han（Chalmers University of Technology and University of Gothenburg）、Ashkan Panahi（Chalmers University of Technology and University of Gothenburg）、Kıvanç Tatar（Chalmers University of Technology and University of Gothenburg） 💡 毒舌点评亮点：论文精准切入了音乐生成归因（TDA）在版权分析中的核心痛点——需要沿旋律、和声、节奏等多属性维度解释“影响”。提出的ARIA框架将这一法律需求转化为可计算的诊断问题，为评估现有归因方法的有效性提供了首个系统性工具。短板：框架本质是“后处理”诊断，完全依赖外部分析，对改进生成模型本身或归因算法没有直接贡献。其有效性严重受限于预定义特征通道的完备性和质量，在音频领域更是缺失了关键的旋律通道。 ...

Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments

📄 Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments #模型评估 #心理测量学 #大语言模型 #可靠性评估 ✅ 6/10 | 前50% | #模型评估 | #心理测量学 | #大语言模型 #可靠性评估 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0/1 | 置信度中 👥 作者与机构第一作者：Izabella Krzemińska 通讯作者：Izabella Krzemińska（Orange Research, AI Center, Warsaw, Poland）作者列表：Izabella Krzemińska（Orange Research, AI Center）、Michał Butkiewicz（Orange Research, AI Center）、Ewa Komkowska（Orange Research, AI Center） 💡 毒舌点评亮点在于，论文将经典的 psychometric 信度分析框架（特别是 ICC 指标）系统性地应用于一个被工业界忽略却至关重要的实际问题：LLM 在单次推理下推断的用户状态是否稳定可靠。其核心洞察——区分“单次推理信度”与“聚合后信度”——对于实时自适应系统的设计具有直接的指导意义。短板在于，所有结论都基于一个极度狭小的数据集（15段电信客服通话，约52分钟），这严重削弱了其发现的普适性。更致命的是，论文未提供任何代码、数据或完整的指标定义，其提出的“可复现框架”在现实中几乎无法复现，沦为一个详尽的理论蓝图，影响力大打折扣。 ...

ViMU: Benchmarking Video Metaphorical Understanding

📄 ViMU: Benchmarking Video Metaphorical Understanding #基准测试 #多模态模型 #视频理解 #模型评估 🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Qi Li（新加坡国立大学）通讯作者：Xinchao Wang（新加坡国立大学）作者列表：Qi Li（新加坡国立大学）、Xinchao Wang（新加坡国立大学） 💡 毒舌点评该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧，覆盖全面，任务定义（尤其是强制无提示）具有启发性。然而，作为一项评估工作，其核心贡献是提供了一个“考卷”，而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型（GPT-5.4）进行核心生成与验证，这既引发了关于其自身偏差和“原创性”的疑问，也使得完全复现其构建过程变得困难。实验分析虽然深入，但主要揭示了现有模型的不足，缺乏对基准本身局限性的充分量化验证。 📌 核心摘要解决的问题：现有视频理解模型主要关注字面视觉内容，缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。方法核心：提出了ViMU（视频隐喻理解）基准，包含588个视频和2352个问题，覆盖四大任务：开放解释（OE）、证据定位（EG）、修辞机制识别（RM）和社会价值信号识别（SV）。基准构建采用多阶段、迭代优化的流水线，结合前沿LLM（GPT-5.4）生成与人工专家审核。与已有方法相比的新颖性：不同于聚焦于隐含物理关系或单一现象（如幽默）的现有基准，ViMU专注于社会文化语境下的广义“潜台词”理解，并强制采用“无提示”（hint-free）的评估方式，要求模型在不被告知具体线索的情况下进行推断。主要实验结果：对16个前沿多模态大模型（MLLMMs）的评估显示，即便是最强的闭源模型，其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。模型日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明：1）模型普遍倾向于预测更通用、安全的类别，而低估更隐晦的社会编码类别；2）在传统视频理解任务上表现优异的模型，在隐喻理解上不一定领先。 ...

语音/音乐/音频论文速递 2026-05-17

语音/音乐/音频论文速递 2026-05-17 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 1篇 █ #音视频分割 1篇 █ 📊 论文评分排行榜（2 篇，按分数降序）排名论文评分分档主任务 🥇 ViMU: Benchmarking Video Metaphorical Understanding 8.1分 - #基准测试 🥈 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Vis 7.2分前25% #音视频分割 📋 论文列表 🥇 ViMU: Benchmarking Video Metaphorical Understanding 🔥 8.1/10 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv ...

A Benchmark for Early-stage Parkinson's Disease Detection from Speech

📄 A Benchmark for Early-stage Parkinson’s Disease Detection from Speech #语音生物标志物 #基准测试 #医疗音频 #模型评估 ✅ 7.2/10 | 前30% | #语音生物标志物 | #基准测试 | #医疗音频 #模型评估 | arxiv 学术质量 5.6/8 | 影响力 0.7/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Terry Yi Zhong (Centre for Language Studies, Radboud University, Nijmegen, the Netherlands) 通讯作者：论文中未明确指定通讯作者。作者列表及邮箱显示，通讯联系可能为第一作者或资深作者 Bastiaan R. Bloem。作者列表：Terry Yi Zhong, Cristian Tejedor-Garcia, Khiet P. Truong (Centre for Language Studies, Radboud University, the Netherlands), Janna Maas, Bastiaan R. Bloem (Center of Expertise for Parkinson and Movement Disorders, Radboud University Medical Center, the Netherlands), Louis ten Bosch (Centre for Language Studies, Radboud University, the Netherlands) 💡 毒舌点评在语音PD检测领域众说纷纭的“巴别塔”困境中，本文试图建立一座通用的“基准高塔”。其系统性整合和临床考量令人钦佩，但作为高塔地基的公开语料库（仅两个数据集）却略显单薄，可能使其宣称的普适性在面对更复杂的现实世界“地基”时产生动摇。 ...

From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents

📄 From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents #语音对话系统 #模型评估 #语音大模型 #基准测试 ✅ 6.3/10 | 前50% | #模型评估 | #基准测试 | #语音对话系统 #语音大模型 | arxiv 学术质量 5.3/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度中高 👥 作者与机构第一作者：Md Tahmid Rahman Laskar（Dialpad Inc.）通讯作者：未说明作者列表：Md Tahmid Rahman Laskar（Dialpad Inc.）、Xue-Yong Fu（Dialpad Inc.）、Seyyed Saeed Sarfjoo（Dialpad Inc.）、Quinten McNamara（Dialpad Inc.）、Jonas Robertson（Dialpad Inc.）、Shashi Bhushan TN（Dialpad Inc.）（原文未列出通讯作者） 💡 毒舌点评这篇论文精准地解决了一个企业级痛点：在已有文本工具调用数据的基础上，低成本评估语音交互的性能损失。其核心“基准转换”框架思路清晰，实用性强，且通过大量对比实验给出了“模型和任务决定架构选择”的清醒结论，避免了对端到端模型的盲目乐观。然而，其根本局限在于将TTS合成的“理想化”语音等同于真实用户语音进行评估，这使其结论更像一个“乐观上限估计”。此外，评估仅基于两个相对简单的文本基准，对于更复杂的工具调用场景（如多步调用）的普适性存疑，框架本身也未提出提升性能的新方法。 ...

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

📄 Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs #模型评估 #音频问答 #跨模态 #基准测试 #多模态模型 🔥 8.0/10 | 前50% | #模型评估 | #基准测试 | #音频问答 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 1.3/2 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Nguyen Quang Trung（南洋理工大学，LMMs-Lab）通讯作者：未说明作者列表：Nguyen Quang Trung（南洋理工大学，LMMs-Lab），Yiming Gao（南洋理工大学，LMMs-Lab），Fanyi Pu（南洋理工大学，LMMs-Lab），Kaichen Zhang（南洋理工大学，LMMs-Lab），Shuo Sun（约翰霍普金斯大学），Ziwei Liu（南洋理工大学，LMMs-Lab） 💡 毒舌点评这篇论文精准地定义并量化了全模态LLM中一个核心但被忽视的“感知-行动鸿沟”问题，其IMAVB基准测试的2×2设计堪称教科书式的诊断工具；然而，作为“干预”的PGLA本质上是一个依赖于同一数据集训练探针的诊断性调整，其在真实、开放世界场景中的泛化能力和实际部署价值被高估了，诊断本身很彻底，但治疗方案可能只是止痛药。 📌 核心摘要要解决什么问题：当全模态大语言模型（LLM）遇到与其自身感官输入（视觉、音频）相矛盾的文本前提时，其失败究竟是源于感知层面（未能检测到矛盾）还是行动层面（检测到了但未能在输出中拒绝）？现有的协同性基准测试无法揭示这种失败模式。方法核心是什么：论文提出了IMAVB（一个500个电影片段的2×2设计基准测试），通过保持视频和音频不变，仅交换问题文本中的一个前提细节来创建“标准”和“误导性”问题。结合线性探针（分析隐藏状态）和引导对数调整（PGLA，一种推理时干预方法），来诊断模型内部表示与外部行为之间的脱节。与已有方法相比新在哪里：与现有的跨模态基准测试（如AVHBench）相比，IMAVB使用隐含的虚假前提（而非明确验证提示）、长视频（1-5分钟），并保留所有模态同时竞争注意力。这是首次系统性地将“内部-外部脱节”现象从纯文本LLM扩展到跨模态感知领域，并量化了其模态不对称性（音频接地弱于视觉）。主要实验结果如何：在8个开源全模态LLM和Gemini 3.1 Pro上，论文发现了显著的“表示-行动鸿沟”：线性探针可以从隐藏状态中以高达86%的准确率解码出误导性前提，但模型的实际拒绝率极低（多数开源模型在音频误导性检测上为0%）。PGLA通过将内部信号反馈至输出，在所有8个开源模型上平均提升了15.0个百分点的平衡准确率。模型基线平衡准确率 (%) PGLA后平衡准确率 (%) 提升 (pp) Uni-MoE-2.0-Omni 38.2 57.0 +18.8 MiniCPM-o 2.6 31.6 49.2 +17.6 OLA 37.4 54.9 +17.5 Video-SALMONN-2 38.2 55.1 +16.9 Qwen2.5-Omni 37.5 53.4 +15.9 OmniVinci 38.4 53.0 +14.6 Qwen3-Omni 45.9 57.7 +11.8 Baichuan-Omni-1.5 36.8 43.5 +6.7 平均 38.0 53.0 +15.0 实际意义是什么：研究结果表明，提升全模态LLM的感知接地能力，瓶颈可能不在于更大的编码器或更丰富的表示，而在于训练目标未能将内部检测到的矛盾信号与最终输出对齐。这为未来针对“诚实”或“接地”的训练改进指明了方向。主要局限性是什么：基准测试局限于电影领域，可能无法推广到所有视频类型；误导性前提是单次细节交换；PGLA的干预是基于同一基准测试数据训练的，其跨域泛化能力未经验证；对商用模型（Gemini）的分析仅限于行为层面，缺乏表示分析。 🔗 开源详情代码：论文中未提供明确的代码仓库链接。论文中提及“all code will be publicly released”以及“code is included in the supplementary material”，但未给出具体的GitHub等仓库地址。模型权重：论文中未提及提供预训练或微调的模型权重链接。数据集：IMAVB数据集。论文中提及一个匿名访问链接：https://huggingface.co/datasets/anonymousneurips/IMAVB。论文还承诺在接收后将与lmms-eval集成并公开发布。 Demo：论文中未提及在线演示链接。复现材料：论文中提供了详细的实验设置、评估协议和实现细节，主要包含在附录中（如Appendix J, L, G）。评估使用了开源框架lmms-eval（链接：https://github.com/EvolvingLMMs-Org/lmms-eval）。所有实验使用温度0、top-p和top-k为1的设置，并报告95%的bootstrap置信区间。开放源代码模型的评估在8块NVIDIA H100 80GB GPU上进行。论文中引用的开源项目： lmms-eval：开源多模态评估框架。论文中引用为lmms-eval，链接：https://github.com/EvolvingLMMs-Org/lmms-eval。评估的开源全模态LLM（论文中未提供其官方权重或代码链接，仅列出名称）：OLA, OmniVinci, Qwen2.5-Omni, MiniCPM-o 2.6, Uni-MoE-2.0-Omni, Baichuan-Omni-1.5, Video-SALMONN-2, Qwen3-Omni。商业模型：Gemini 3.1 Pro（通过API评估，未开源）。数据生成与标注中使用的模型：Qwen3.5-27B, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Thinking, GPT-4o（论文中未提供这些模型的具体链接）。其他方法（论文中提及但未提供实现链接）：Inference-Time Intervention (ITI), Representation Engineering (RepE), Visual Contrastive Decoding (VCD), Instruction Contrastive Decoding (ICD), AVCD, Fork-Merge Decoding, OPERA, Self-Introspective Decoding, DoLa。 🏗️ 方法概述和架构本文的核心方法框架是一个用于诊断和量化全模态LLM中“表示-行动鸿沟”的系统流程，包含基准测试构建、多维度分析与诊断干预三个主要阶段。 ...

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

📄 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition #多模态检索 #迁移学习 #多模态模型 #模型评估 ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv 学术质量 7.5/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Florian Hönicke（Jina by Elastic）通讯作者：未说明作者列表：Florian Hönicke、Michael Günther、Andreas Koukounas、Kalim Akram、Scott Martens、Saba Sturua、Han Xiao（均隶属于 Jina by Elastic） 💡 毒舌点评论文提出了一种名为“冻结编码器模型组合”的务实框架，通过仅训练连接层来将多个冻结的预训练编码器（视觉、音频）对接到冻结的文本嵌入主干上。这种方法在保持文本嵌入性能无损（“文本几何保持”）的同时，以极高的参数和计算效率扩展了模型的多模态能力，展现了强大的工程实用价值。然而，其“全能”宣称在视频模态上遭遇滑铁卢——性能显著落后于专精模型及更大的全模态基线，且论文未能提供充分的技术分析来解释这一短板，这与其在其他模态上的优异表现形成鲜明对比，成为一项明显的局限。 📌 核心摘要解决的问题：如何在几乎不修改、不损失现有高性能文本嵌入模型（Jina Embeddings v5 Text）的前提下，高效地将其扩展到支持图像、音频和视频等多模态输入，构建一个统一的跨模态嵌入空间，同时保持纯文本处理路径和输出完全不变。方法核心：提出“冻结编码器模型组合”方法。核心是保持预训练的非文本编码器（Qwen3.5视觉编码器、Qwen2.5-Omni音频编码器）和文本嵌入主干（Jina Embeddings v5 Text）完全冻结，仅训练连接两者的轻量级投影层（fc_vision_2， fc_audio）和模态分隔符（如``等）的嵌入。训练参数仅占总参数的0.35%。新颖之处：与现有需要微调语言模型或进行大规模联合训练的方法（如E5-V, Qwen3-VL-Embedding）不同，该方法首次在VLM风格架构中实现了完全冻结文本嵌入主干，从而确保对文本输入产生与原始文本模型完全一致的嵌入，实现了真正的“文本几何保持”。这是一种高效率、模块化、低风险的多模态扩展范式。主要实验结果：在MIEB（图像）、MMEB-Video（视频）、MAEB（音频）、MMTEB（文本）等基准上，jina-embeddings-v5-omni-small（1.57B参数）的四模态平均分（53.93）略高于LCO-Embedding-Omni-3B（53.83），并远高于参数更多的LanguageBind（36.27）和Omni-Embed-Nemotron-3B（41.21）。其在文档检索（ViDoRe）上得分79.08，以仅0.92B活动参数表现强劲。但视频检索性能（27.82）明显落后于基线（如Qwen3-VL-Embedding-8B的58.73）。实际意义：为现有的文本嵌入系统提供了一种低成本、低风险的工业级多模态升级路径，特别适合需要维护稳定文本向量索引（如RAG、企业搜索）的应用场景。开源的模型套件（Nano/Small，8个任务变体）推动了多模态嵌入生态的发展。主要局限性：视频模态的性能（尤其是通用视频检索）显著落后于基线，论文承认这是未来工作重点；当前方法未探索联合训练多个投影器或更深入的模态融合；非文本编码器的选择探索不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni-67913f62f6539f77a8f022c5 数据集：论文中提及训练使用了混合数据集（图3），但未提供具体数据集名称、获取链接或开源协议。 Demo：论文中未提及。复现材料：论文描述了详细的训练配置：使用AdamW优化器，学习率2e-4，500步线性预热，全局梯度裁剪，bf16混合精度，4个NVIDIA H100 GPU上全局批大小为256，训练15,000步。对于消融实验，使用了更小的配置（5000步，批大小128）。论文提到��发布8个任务特定变体，但未给出具体的检查点发布链接。论文中引用的开源项目： Sentence-BERT: https://github.com/UKPLab/sentence-transformers E5-Mistral: https://huggingface.co/intfloat/e5-mistral-7b-instruct CLIP: https://github.com/openai/CLIP SigLIP / SigLIP2: https://github.com/google-research/big_vision ImageBind: https://github.com/facebookresearch/ImageBind LLaVA: https://github.com/haotian-liu/LLaVA BLIP-2: https://github.com/salesforce/LAVIS Qwen3.5 / Qwen3.65 视觉编码器: https://github.com/QwenLM/Qwen2.5-VL (论文基于其架构) Qwen2.5-Omni 音频编码器: https://github.com/QwenLM/Qwen2.5-Omni (论文基于其架构) Whisper: https://github.com/openai/whisper Matryoshka Representation Learning: https://github.com/Prithivida/MatryoshkaCL (论文引用了原始论文) Jina CLIP v1/v2: 具体模型权重见Jina AI官方。其他被引用但未明确开源或未提供直接代码链接的项目（如LiT, Nomic Embed Vision, GTE-Qwen2, NV-Embed, EVA-CLIP等），在此不列出详细链接。 🏗️ 方法概述和架构整体流程概述：本系统是一个模块化的多模态嵌入生成框架。对于任意输入（文本、图像、音频、视频），系统首先调用相应的冻结编码器（或直接处理文本token），然后通过可训练的投影层将非文本特征映射到文本嵌入模型的输入空间，最后将所有模态的特征序列化后输入冻结的文本Transformer，通过最后token池化和L2归一化得到统一的嵌入向量。核心原则是冻结所有预训练的编码器和文本模型，仅训练适配层。 ...