Audio-Image Cross-Modal Retrieval with Onomatopoeic Images

📄 Audio-Image Cross-Modal Retrieval with Onomatopoeic Images #音频检索 #迁移学习 #跨模态 #多模态模型 #数据集 ✅ 7/10 | 前50% | #音频检索 | #迁移学习 | #跨模态 #多模态模型 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Keisuke Imoto(Kyoto University, Japan) 通讯作者:未说明 作者列表:Keisuke Imoto(Kyoto University, Japan)、Yamato Kojima(Doshisha University, Japan)、Takao Tsuchiya(Doshisha University, Japan) 💡 毒舌点评 本文的亮点在于首次定义了“拟声图像-声音检索”这一具体且有趣的小众问题,并构建了首个专用数据集MIAO,填补了该交叉领域的空白。然而,其技术贡献主要是在成熟的CLIP和CLAP之上“堆叠”了一个两层MLP投影头,方法的原创性和技术深度较为有限,更像是一个针对特定数据集的适配实验而非一个具有普遍启发性的方法论突破。审稿人可能会质疑,在缺乏更强大的基线对比和充分消融实验的情况下,该工作的说服力和对社区的贡献有限。 📌 核心摘要 这篇论文旨在解决多媒体创作(如漫画)中,创作者希望根据画面中拟声词的视觉表现(拟声图像)来检索匹配的声音,或根据声音检索合适拟声图像的实际需求。目前,拟声图像与声音之间的跨模态检索尚未被研究。论文提出了一种双向检索框架,其核心方法是在冻结的预训练CLIP图像编码器和CLAP音频编码器之上,为每个模态分别训练一个轻量的两层MLP投影头,将它们的特征重新对齐到一个共享的嵌入空间,而非直接比较原始嵌入。与直接使用预训练CLIP和CLAP嵌入的零样本基线相比,该方法在双向检索任务上取得了显著的性能提升。论文还构建了包含50个声音事件类别、850个配对样本的首个多模态拟声图像-音频数据集(MIAO)。主要实验结果表明,所提方法在图像到音频检索(I2A)上的mAP从基线的6.77%提升至61.45%,在音频到图像检索(A2I)上从7.82%提升至61.08%。这项工作的实际意义在于为多媒体创作提供了自动化的跨模态检索工具雏形。主要局限性在于所提方法相对简单,且数据集中拟声图像的视觉多样性(因插画师风格不同)是导致检索错误的主要原因,论文未提出更鲁棒的表征方法来应对此问题。 方法 任务 mAP (%) R@1 (%) R@5 (%) MRR 零样本基线 I2A 6.77 ± 0.00 2.00 ± 0.00 9.00 ± 0.00 0.076 ± 0.00 零样本基线 A2I 7.82 ± 0.00 6.00 ± 0.00 10.00 ± 0.00 0.116 ± 0.00 提出方法 I2A 61.45 ± 1.71 53.60 ± 2.41 68.90 ± 2.69 0.60 ± 0.02 提出方法 A2I 61.08 ± 1.84 64.60 ± 3.37 88.20 ± 2.66 0.75 ± 0.03 表1:零样本基线与提出方法在MIAO测试集上的双向检索性能对比 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:Multimodal Image-Audio Onomatopoeia dataset (MIAO)。获取链接:https://huggingface.co/datasets/KeisukeImoto/MIAO。 Demo:论文中未提及。 复现材料:论文中提及了训练配置(超参数等),但未提供检查点或附录等详细复现材料。 论文中引用的开源项目: CLIP (Contrastive Language–Image Pre-training): https://github.com/openai/CLIP CLAP (Contrastive Language-Audio Pre-training): https://github.com/LAION-AI/CLAP AudioCLIP: https://github.com/shikkunchoi/AudioCLIP Wav2CLIP: https://github.com/seungheondoh/wav2clip ImageBind: https://github.com/facebookresearch/ImageBind FSD50K: https://zenodo.org/record/4060432 HTS-AT: 论文将其作为CLAP音频编码器的骨干网络引用,但未直接提供其独立开源链接。 🏗️ 方法概述和架构 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 508 words

Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection

📄 Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection #医疗音频 #信号处理 #实时处理 #音频事件检测 #跨模态 ✅ 6.5/10 | 前40% | #医疗音频 | #信号处理 | #实时处理 #音频事件检测 | arxiv 学术质量 5.4/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures) 通讯作者:Luis D. Reyes Vargas (邮箱 luis.reyes@tum.de 明确标识为通讯作者) 作者列表:Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures),Veronica Ruozzi (未说明机构),Andrea K. M. Ross (Rotterdam Eye Hospital),Shervin Dehghani (Technical University of Munich, TUM Klinikum Rechts der Isar),Michael Sommersperger (Technical University of Munich, Computer Aided Medical Procedures),Koorosh Faridpooya (未说明机构),Mohammad Ali Nasseri (Technical University of Dresden, Centre for Tactile Internet with Human-in-the-Loop),Merle Fairhurst (Technical University of Dresden, Chair for Social Affective Touch),Nassir Navab (Technical University of Munich, Computer Aided Medical Procedures; Munich Center for Machine Learning),Sasan Matinfar (Technical University of Munich, Computer Aided Medical Procedures) 💡 毒舌点评 这篇论文精准地抓住了视网膜下注射手术中一个真实且关键的痛点:iOCT数据的视觉认知过载。其提出的解决方案——将实时分割的解剖结构映射到一个物理声音模型——在工程逻辑上清晰且具有临床洞察力。用户研究的结果也确实表明,这种听觉反馈在传递“水泡形成”这类动态事件上显著优于简单参数映射。然而,这篇论文的创新性上限被其“系统集成”的本质所限制:核心的声音生成模型(质量-弹簧-阻尼器)和驱动它所需的分割技术均非新创。论文更像是一次精心设计的、面向特定场景的“管道集成”和应用验证,其贡献在于证明了这种集成方式在临床任务上的有效性,而非在音频合成、物理建模或分割算法本身上提出新原理。实验完全基于模拟环境和有限的专家反馈,与真实的、高风险的手术室应用之间,仍隔着一道名为“临床验证”的深水区。 ...

2026-05-15 · 更新于 2026-05-19 · 2 min · 407 words

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

📄 Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs #音视频 #高效推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音视频 | #高效推理 | #多模态模型 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Chaeyoung Jung(Korea Advanced Institute of Science and Technology (KAIST)) 通讯作者:未明确说明(论文中列出的通讯作者地址为“Equal contribution”,与第一作者相同) 作者列表:Chaeyoung Jung(KAIST)、Kyeongha Rho(KAIST)、Joon Son Chung(KAIST) 💡 毒舌点评 这篇论文的“移除音频已知,保留音频未知”的剪枝思想确实新颖且直观,实验结果也非常亮眼,尤其是在Qwen2.5-Omni 7B上能以55%的压缩率保持甚至超越全token性能。但尴尬的是,方法最核心的“保留空间细节”分支(图2中标注2⃝)依赖于一个固定的全局空间保留比例ρspa,这在处理如球员球衣号码、面部表情等高度局部化、信息量集中的细节时显得非常脆弱,论文的失败案例也明确证实了这一点。一个自适应的、可能依赖内容或查询的空间预算分配机制,才是该方法从“有效”迈向“鲁棒”的关键下一步。此外,将所有实验仅限于短视频片段,其结论在长视频场景下的普适性存疑。 📌 核心摘要 要解决什么问题:全模态大语言模型(Omni-LLMs)在处理音视频输入时,会产生大量token,导致计算开销巨大,阻碍了实际部署。现有的token剪枝方法要么针对特定任务训练,要么过度依赖音频-视觉的强对齐信号,可能丢弃理解宽泛上下文所需的证据。 方法核心是什么:论文提出了一个名为ContextGuard的推理时token剪枝框架。其核心思想是将token压缩从“选择重要token”重新定义为“移除跨模态冗余,同时保留音频无法表达的视觉上下文”。具体实现包含三个主要步骤:a) 音频引导的语义剪枝:使用一个轻量级的音频到视觉语义预测器(A2V Predictor)从音频预测粗糙视觉语义,移除与预测语义高度相似(即可被音频解释)的视频token;b) 空间细节保留:通过网格采样和局部空间变化度量,额外保留一部分token以覆盖图像空间,保存颜色、姿态等音频无法指定的局部细节;c) 基于深度分数的时间合并:对时间上相似的chunk进行分段和合并,进一步压缩冗余帧。 与已有方法相比新在哪里:与现有训练基础的(如EchoingPixels, OmniSIFT)或基于对齐的(如OmniZip)方法不同,ContextGuard不追求为当前查询选择最相关的token,而是致力于去除被音频流冗余表达的视觉信息,并主动保留那些与音频不匹配的视觉证据(如场景文字、背景物体),以维护更广泛的上下文信息。 主要实验结果如何:在Qwen2.5-Omni(7B/3B)和Video-SALMONN2+(7B/3B)两个模型及六个音视频基准测试上,ContextGuard显著优于基线方法。关键结果如表1所示: Method Comp.↑ (%) World.↑ Daily.↑ Video-MME↑ OmniVid.↑ AVQA↑ video-SAL2.↓ Avg.↑ (%) Qwen2.5-Omni 7B Full Token 0 47.4 57.1 78.8 48.2 87.6 48.1 100.0 Random 50 45.7 52.4 78.4 43.4 86.7 50.4 95.4 FastV 50 45.6 56.6 77.9 47.6 87.0 49.8 98.1 OmniZip 54 46.8 56.6 77.1 47.0 87.0 52.8 97.3 ContextGuard 55 47.7 57.2 78.8 48.2 87.1 48.1 100.0 Qwen2.5-Omni 3B Full Token 0 47.7 57.7 75.8 44.0 87.6 53.5 100.0 Random 50 44.1 53.1 74.0 42.8 87.1 56.1 95.7 FastV 50 46.7 55.6 74.0 44.0 87.2 54.6 98.2 OmniZip 54 47.1 55.8 74.9 42.8 87.3 52.4 98.9 ContextGuard 61 47.7 56.6 75.8 45.2 87.3 52.3 100.5 Video-SALMONN2+ 7B Full Token 0 50.7 56.3 79.2 43.4 67.8 18.9 100.0 Random 50 47.3 51.6 76.2 39.5 66.8 25.7 90.7 FastV 50 46.3 51.8 79.2 42.2 66.1 24.0 92.8 OmniZip 49 47.8 53.8 79.2 42.8 68.8 22.4 95.7 ContextGuard 55 50.6 55.5 81.4 47.0 66.9 19.9 100.5 Video-SALMONN2+ 3B Full Token 0 48.1 57.7 76.2 45.8 81.6 22.7 100.0 Random 50 44.3 51.6 73.2 42.0 81.2 30.3 90.6 FastV 50 45.6 53.2 71.0 36.1 81.0 27.4 90.2 OmniZip 49 45.6 54.7 73.2 41.6 81.3 26.3 93.7 ContextGuard 56 47.1 55.5 73.6 44.6 81.4 24.2 96.9 特别是在Qwen2.5-Omni 7B上,剪枝55%的token后,在6个基准中的5个上达到了全token性能。 实际意义是什么:该方法为部署高效的全模态大模型提供了有力的工具,通过一个无需微调下游LLM、仅需一个独立训练的轻量预测器的推理时框架,大幅降低了音视频理解的计算成本和内存占用,对实时交互应用具有重要价值。 主要局限性是什么:方法依赖于固定的精细粒度空间保留比例(ρspa),这可能导致在需要非常具体局部细节的任务(如识别球衣号码、细微表情)上表现不佳,正如其失败案例所示。此外,所有评估均基于短于1分钟的视频片段,限制了结论对长视频场景的适用性。A2V预测器的鲁棒性在不同内容类型(如音乐视频)上未被充分讨论。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: WorldSense: 论文中未提供链接。 Daily-Omni: 论文中未提供链接。 Video-MME: 论文中未提供链接。 AVQA: 论文中未提供链接。 OmniVideoBench: 论文中未提供链接。 video-SALMONN2 test set: https://huggingface.co/datasets/videoSALMONN2/video-SALMONN_2_testset AudioSet: 论文中提及,未提供具体链接。 VGGSound: 论文中提及,未提供具体链接。 Demo:论文中未提及。 复现材料:论文提供了详细的附录,包括 A2V 预测器的架构、训练目标、训练数据(AudioSet 和 VGGSound)、超参数设置、以及各项分析实验的细节(如语义保留比例、空间细节保留策略、时序合并实现等)。未提及训练检查点或代码库。 论文中引用的开源项目: Qwen2.5-Omni: 论文中作为基线模型使用,未提供代码或权重仓库链接。 Video-SALMONN2+: 论文中作为基线模型使用,未提供代码或权重仓库链接。 OmniZip: 论文中作为对比方法,未提供代码或仓库链接。 FastV: 论文中作为对比方法,未提供代码或仓库链接。 🏗️ 方法概述和架构 整体流程概述:ContextGuard是一个在LLM解码器之前运行的、多阶段的音视频token剪枝框架。其输入为交替的音视频token序列,输出为压缩后的视觉token序列和完整的音频token序列。该框架并非端到端系统,而是由一个独立训练的轻量级A2V预测器和一个基于启发式规则的剪枝-合并流水线组成。 ...

2026-05-14 · 更新于 2026-05-19 · 3 min · 510 words

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

📄 Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs #模型评估 #音频问答 #跨模态 #基准测试 #多模态模型 🔥 8.0/10 | 前50% | #模型评估 | #基准测试 | #音频问答 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 1.3/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Nguyen Quang Trung(南洋理工大学,LMMs-Lab) 通讯作者:未说明 作者列表:Nguyen Quang Trung(南洋理工大学,LMMs-Lab),Yiming Gao(南洋理工大学,LMMs-Lab),Fanyi Pu(南洋理工大学,LMMs-Lab),Kaichen Zhang(南洋理工大学,LMMs-Lab),Shuo Sun(约翰霍普金斯大学),Ziwei Liu(南洋理工大学,LMMs-Lab) 💡 毒舌点评 这篇论文精准地定义并量化了全模态LLM中一个核心但被忽视的“感知-行动鸿沟”问题,其IMAVB基准测试的2×2设计堪称教科书式的诊断工具;然而,作为“干预”的PGLA本质上是一个依赖于同一数据集训练探针的诊断性调整,其在真实、开放世界场景中的泛化能力和实际部署价值被高估了,诊断本身很彻底,但治疗方案可能只是止痛药。 📌 核心摘要 要解决什么问题:当全模态大语言模型(LLM)遇到与其自身感官输入(视觉、音频)相矛盾的文本前提时,其失败究竟是源于感知层面(未能检测到矛盾)还是行动层面(检测到了但未能在输出中拒绝)?现有的协同性基准测试无法揭示这种失败模式。 方法核心是什么:论文提出了IMAVB(一个500个电影片段的2×2设计基准测试),通过保持视频和音频不变,仅交换问题文本中的一个前提细节来创建“标准”和“误导性”问题。结合线性探针(分析隐藏状态)和引导对数调整(PGLA,一种推理时干预方法),来诊断模型内部表示与外部行为之间的脱节。 与已有方法相比新在哪里:与现有的跨模态基准测试(如AVHBench)相比,IMAVB使用隐含的虚假前提(而非明确验证提示)、长视频(1-5分钟),并保留所有模态同时竞争注意力。这是首次系统性地将“内部-外部脱节”现象从纯文本LLM扩展到跨模态感知领域,并量化了其模态不对称性(音频接地弱于视觉)。 主要实验结果如何:在8个开源全模态LLM和Gemini 3.1 Pro上,论文发现了显著的“表示-行动鸿沟”:线性探针可以从隐藏状态中以高达86%的准确率解码出误导性前提,但模型的实际拒绝率极低(多数开源模型在音频误导性检测上为0%)。PGLA通过将内部信号反馈至输出,在所有8个开源模型上平均提升了15.0个百分点的平衡准确率。 模型 基线平衡准确率 (%) PGLA后平衡准确率 (%) 提升 (pp) Uni-MoE-2.0-Omni 38.2 57.0 +18.8 MiniCPM-o 2.6 31.6 49.2 +17.6 OLA 37.4 54.9 +17.5 Video-SALMONN-2 38.2 55.1 +16.9 Qwen2.5-Omni 37.5 53.4 +15.9 OmniVinci 38.4 53.0 +14.6 Qwen3-Omni 45.9 57.7 +11.8 Baichuan-Omni-1.5 36.8 43.5 +6.7 平均 38.0 53.0 +15.0 实际意义是什么:研究结果表明,提升全模态LLM的感知接地能力,瓶颈可能不在于更大的编码器或更丰富的表示,而在于训练目标未能将内部检测到的矛盾信号与最终输出对齐。这为未来针对“诚实”或“接地”的训练改进指明了方向。 主要局限性是什么:基准测试局限于电影领域,可能无法推广到所有视频类型;误导性前提是单次细节交换;PGLA的干预是基于同一基准测试数据训练的,其跨域泛化能力未经验证;对商用模型(Gemini)的分析仅限于行为层面,缺乏表示分析。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。论文中提及“all code will be publicly released”以及“code is included in the supplementary material”,但未给出具体的GitHub等仓库地址。 模型权重:论文中未提及提供预训练或微调的模型权重链接。 数据集:IMAVB数据集。论文中提及一个匿名访问链接:https://huggingface.co/datasets/anonymousneurips/IMAVB。论文还承诺在接收后将与lmms-eval集成并公开发布。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的实验设置、评估协议和实现细节,主要包含在附录中(如Appendix J, L, G)。评估使用了开源框架lmms-eval(链接:https://github.com/EvolvingLMMs-Org/lmms-eval)。所有实验使用温度0、top-p和top-k为1的设置,并报告95%的bootstrap置信区间。开放源代码模型的评估在8块NVIDIA H100 80GB GPU上进行。 论文中引用的开源项目: lmms-eval:开源多模态评估框架。论文中引用为lmms-eval,链接:https://github.com/EvolvingLMMs-Org/lmms-eval。 评估的开源全模态LLM(论文中未提供其官方权重或代码链接,仅列出名称):OLA, OmniVinci, Qwen2.5-Omni, MiniCPM-o 2.6, Uni-MoE-2.0-Omni, Baichuan-Omni-1.5, Video-SALMONN-2, Qwen3-Omni。 商业模型:Gemini 3.1 Pro(通过API评估,未开源)。 数据生成与标注中使用的模型:Qwen3.5-27B, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Thinking, GPT-4o(论文中未提供这些模型的具体链接)。 其他方法(论文中提及但未提供实现链接):Inference-Time Intervention (ITI), Representation Engineering (RepE), Visual Contrastive Decoding (VCD), Instruction Contrastive Decoding (ICD), AVCD, Fork-Merge Decoding, OPERA, Self-Introspective Decoding, DoLa。 🏗️ 方法概述和架构 本文的核心方法框架是一个用于诊断和量化全模态LLM中“表示-行动鸿沟”的系统流程,包含基准测试构建、多维度分析与诊断干预三个主要阶段。 ...

2026-05-14 · 更新于 2026-05-19 · 4 min · 720 words

CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings

📄 CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings #脑机接口 #迁移学习 #预训练 #跨模态 #数据集 ✅ 6.5/10 | 前25% | #脑机接口 | #迁移学习 | #预训练 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 1.0/1 | 置信度 高 👥 作者与机构 第一作者:Liuyin Yang(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 通讯作者:Marc M. Van Hulle(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 作者列表:Liuyin Yang(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Qiang Sun(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Bob Van Dyck(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Eva Calvo Merino(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Marc M. Van Hulle(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 💡 毒舌点评 亮点在于首次系统性地研究了将头皮EEG预训练基础模型迁移到颅内ECoG解码的可行性,并在两个不同任务上验证了该框架的有效性。其设计的KNNSoftFourier适配器为解决电极几何差异提供了新颖的解决方案,LOO-FT策略为临床快速部署提供了实用路径。短板在于,其在公开基准任务(手指轨迹)上的性能提升统计上并不显著,且核心贡献更多是方法整合与验证,而非提出颠覆性的算法新范式。主要优势体现在低数据适配和私有任务上。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 652 words

EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing

📄 EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing #音频事件检测 #多模态模型 #跨模态 #弱监督学习 📝 5.8/10 | 前25% | #音频事件检测 | #多模态模型 | #跨模态 #弱监督学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Huilai Li(北京邮电大学智能工程与自动化学院) 通讯作者:Jianqin Yin(北京邮电大学智能工程与自动化学院) 作者列表: Huilai Li(北京邮电大学智能工程与自动化学院) Xiaomeng Di(国家电网有限公司) Ying Xing(北京邮电大学智能工程与自动化学院) Yonghao Dang(北京邮电大学人工智能学院) Yiming Wang(北京邮电大学智能工程与自动化学院) Jianqin Yin(北京邮电大学智能工程与自动化学院,通讯作者) 💡 毒舌点评 这篇论文精准地切中了现有弱监督音视频视频解析(AVVP)方法的一个痛点:在追求多模态融合时,反而可能损害了对单模态事件本身准确感知的能力。提出的EAR框架从伪标签生成器预训练和最终解析模型两个阶段入手,试图“补课”增强单模态表示,思路清晰且有实效。实验上确实在AVVP基准上取得了当前最佳结果,尤其是伪标签质量的提升令人印象深刻。然而,其核心的“基于相似性的标签迁移”本质上是一种依赖外部预训练模型(CLIP/CLAP)特征质量的启发式增强手段,阈值敏感且易引入噪声(尤其在视觉模态),其“创新”更偏向于针对特定数据集的精巧工程调优,而非对弱监督学习本身方法论的突破。整体看,这是一篇扎实、完整的系统性工作,但理论深度和方法的普适性有提升空间。 📌 核心摘要 要解决的问题:弱监督音视频视频解析(AVVP)任务中,现有方法主要沿着两个方向发展:生成高质量伪标签以提供更细粒度的跨模态监督,或设计更复杂的AVVP模型架构以增强多模态融合。然而,由于音频和视觉信号通常未对齐,准确解析视频根本上依赖于对单模态事件的精确感知。这些多模态聚焦的策略过度强调跨模态融合,而未能充分引导和保留单模态语义,导致生成的伪标签噪声较大,最终视频解析性能次优。 方法核心:提出增强单模态表示(EAR)框架,旨在同时优化伪标签生成器和AVVP模型。(1) 在伪标签生成器预训练阶段,引入基于单模态特征相似性的标签迁移方法,将大规模DAVE数据集上的音视频事件标注转化为伪单模态事件标注,为生成器提供显式的单模态监督;同时采用非对称时序建模架构以更好地聚焦于单模态事件的动态关系。(2) 在AVVP模型训练阶段,采用软约束方式,设计非对称音/视觉驱动融合模块和多事件关系建模模块,在融合过程中保护单模态语义信息。 与已有方法相比新在哪里:明确将“增强单模态表示”作为提升AVVP的核心目标,而非仅仅关注多模态融合或跨模态对齐。具体的实现手段——基于相似性的标签迁移和软约束模型架构——旨在更协调地平衡单模态与多模态事件的关注,这与以往主要关注对称融合或忽略单模态独立建模的方法有本质区别。 主要实验结果: 在AVVP基准LLP数据集上,EAR在伪标签生成和最终解析性能上均达到SOTA。 使用VGGish+ResNet特征时,整体平均性能(Event Level Avg.)比当前SOTA方法UWAV高0.9%,达到63.7%;使用CLIP+CLAP特征时,高1.2%,达到67.4%。 生成的伪标签质量(测试集平均性能)比VALOR和UWAV分别高出3.8%和2.9%。 大量的消融实验验证了标签迁移(LM)、非对称融合(AMDF)、多事件关系建模(ERM)以及各损失函数的有效性。 实际意义:为弱监督时序定位任务(如AVVP、动作定位)提供了一种新的视角,即通过显式增强单模态表示来提升整体性能。其生成的高质量伪标签具有公开共享的价值,可作为未来AVVP研究的强基线。 主要局限性:基于相似性的标签迁移是启发式的,其有效性高度依赖于预训练模型(CLIP/CLAP)的特征质量和相似度阈值的设定。特别是在视觉模态,相似的视觉片段可能包含不同事件,导致迁移的标签引入噪声,这解释了为何论文中视觉模态的性能提升不如音频模态明显。方法性能上限受上游预训练模型特征提取能力制约。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集: UnAV-100:用于伪标签生成器预训练的密集音视频事件定位数据集。论文中未提供直接下载链接,但可通过其原始论文[13]中提供的项目页面获取信息。 LLP (Look, Listen, and Parse):用于评估音视频视频解析性能的基准数据集。论文中未提供直接下载链接,但该数据集为AVVP任务的标准评测集,可通过其原始论文[46]获取信息。 Demo:论文中未提及。 复现材料:论文的补充材料(Supplementary Material) 提供了训练配置、损失函数细节、参数消融实验结果等信息,可用于复现。论文中提到生成的细粒度伪标签将公开发布,但未提供发布时的具体链接。 论文中引用的开源项目: CLIP:用于提取视觉和文本特征的预训练模型。论文中给出了其GitHub仓库链接: https://github.com/openai/CLIP CLAP:用于提取音频和文本特征的预训练模型。论文中给出了其论文链接(作为其开源实现的间接指代): https://arxiv.org/abs/2206.04769 ResNet-152:用于提取视觉特征的预训练骨干网络。 3D ResNet:用于提取视觉特征的预训练骨干网络。 VGGish:用于提取音频特征的预训练骨干网络。 🏗️ 方法概述和架构 图2:EAR框架总览。Stage 1利用DAVE数据集进行伪标签生成器的预训练,Stage 2在目标数据集(LLP)上生成伪标签,Stage 3使用生成的伪标签和软约束模型进行AVVP训练。图中清晰展示了数据从原始视频到特征提取、标签迁移、伪标签生成、再到最终解析模型训练的完整流水线。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 507 words

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Qijie You(北京科技大学 University of Science and Technology Beijing) 通讯作者:Wentao Zhang(北京大学 Peking University、中关村学院 Zhongguancun Academy) 作者列表:Qijie You(北京科技大学)、Hao Liang(北京大学、中关村学院,同等贡献)、Mingrui Chen(中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences)、Bohan Zeng(北京大学)、Meiyi Qiang(北京大学)、Zhenhao Wong(北京大学)、Wentao Zhang(北京大学、中关村学院,项目负责人,通讯作者) 💡 毒舌点评 这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段,完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图;其提出的“硬双模态约束”过滤机制是一个非常聪明的设计,确保了跨模态查询不是简单的拼接。然而,其短板也明显:整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上,这虽保证了规模,却也引入了模型特有的偏见,且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑,更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 708 words

Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

📄 Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search #基准测试 #模型评估 #跨模态 #音频问答 #多模态代理 ✅ 6.0/10 | 前25% | #基准测试 | #模型评估 | #跨模态 #音频问答 | arxiv 学术质量 6.0/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tao Yu (中国科学院自动化研究所 CASIA,中国科学院大学 UCAS,北京人工智能研究院 BAAI) 通讯作者:Yan Huang (中国科学院自动化研究所 CASIA),Liang Wang (中国科学院自动化研究所 CASIA) 作者列表:Tao Yu (CASIA, UCAS, BAAI),Yiming Ding (CASIA),Shenghua Chai (CASIA),Minghui Zhang (CASIA),Zhongtian Luo (CASIA),Xinming Wang (CASIA, UCAS),Xinlong Chen (CASIA, UCAS),Zhaolu Kang (Peking University),Junhao Gong (Peking University),Yuxuan Zhou (Tsinghua University),Haopeng Jin (CASIA),Zhiqing Cui (CASIA),Jiabing Yang (CASIA, UCAS),YiFan Zhang (CASIA, UCAS),Hongzhu Yi (UCAS),Zheqi He (BAAI),Xi Yang (BAAI),Yan Huang (CASIA, UCAS),Liang Wang (CASIA, UCAS) 💡 毒舌点评 亮点:论文精准地识别了当前全模态评测中“被动接收多模态信息”范式的局限,定义了“音频驱动的主动全模态深度搜索”这一重要且现实的新任务,并系统性地构建了首个基准。这对于推动多模态智能体从“理解”走向“行动”具有明确的指导价值。短板:作为基准,其影响力受限于相对有限的规模(640个样本) 和对特定搜索工具、流程及提示策略的强依赖。论文声称解决了“主动搜索”的评测空白,但其核心贡献更接近于一个高度结构化的、依赖工具的评估流水线,而非对模型内在推理能力的无偏测量。实验部分缺乏与现有相关基准(如BrowseComp-VL, VideoBrowserComp)在类似模型上的直接横向对比,削弱了其挑战性定位的独特性。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 438 words

Anisotropic Modality Align

📄 Anisotropic Modality Align #跨模态 #几何分析 #对比学习 #预训练 #无监督学习 ✅ 7.5/10 | #跨模态 #几何分析 | arxiv 👥 作者与机构 第一作者:未说明(论文标题页首位作者为 Xiaomin Yu,但未明确标注“第一作者”) 通讯作者:Yue Song, Xiaobin Hu, Chengwei Qin(论文中明确标注“correspondence”) 作者列表:Xiaomin Yu (1, 2, 3, 4, 5), Yijiang Li (1), Yuhui Zhang (1), Hanzhen Zhao (1), Yue Yang (1), Hao Tang (1), Yue Song (6), Xiaobin Hu (1), Chengwei Qin (1), Shuicheng Yan (1, 5), Hui Xiong (1)。其中机构编号对应:1]HKUST(GZ), 2]NUS, 3]UCSD, 4]Stanford, 5]PKU, 6]THU(具体实验室或部门未说明)。 💡 毒舌点评 论文对“模态间隙”这一经验现象进行了非常细致且深刻的几何再分析,其“各向异性残差结构”的洞察超越了简单的质心偏移或全局统计匹配,为无监督对齐提供了坚实的理论动机。然而,方法实现过于繁复(涉及两阶段训练、周期先验、多变量有界校正),其复杂性是否必要,以及在缺乏大量计算资源和调参技巧下能否稳定复现,值得怀疑;同时,所有实验均依赖于一个固定的预训练编码器(LLM2CLIP),这严重限制了结论的普适性。 ...

2026-05-11 · 更新于 2026-05-19 · 3 min · 585 words

Do Joint Audio-Video Generation Models Understand Physics?

📄 Do Joint Audio-Video Generation Models Understand Physics? #基准测试 #模型评估 #音视频 #跨模态 #生成模型 ✅ 7.5/10 | #基准测试 #模型评估 | arxiv 👥 作者与机构 第一作者:Zijun Cui (University of Texas at Dallas) 通讯作者:Yapeng Tian (University of Texas at Dallas) 作者列表:Zijun Cui (University of Texas at Dallas), Xiulong Liu (University of Washington), Hao Fang (University of Washington), Mingwei Xu (University of Washington), Jiageng Liu (University of California, Los Angeles), Zexin Xu (University of Texas at Dallas), Weiguo Pian (University of Texas at Dallas), Shijian Deng (University of Texas at Dallas), Feiyu Du (University of Texas at Dallas), Chenming Ge (University of Washington), Yapeng Tian (University of Texas at Dallas) 💡 毒舌点评 本文首次系统性地构建了评估联合音视频生成模型物理常识理解的基准AV-Phys Bench,其场景演进分类法(稳态、事件转换、环境转换)和反物理子类别设计为评估工作带来了急需的、结构化的维度。然而,其评估深度可能受限于“8秒短视频”和“纯感知物理”的框架,未能充分触及模型是否真正理解物理因果链,而非仅仅学会了感知层面的统计关联。 ...

2026-05-11 · 更新于 2026-05-19 · 3 min · 589 words