多模态模型

EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection

📄 EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection #音频深度伪造检测 #多模态模型 #对比学习 #语音情感识别 #鲁棒性 ✅ 7.2/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #对比学习 #语音情感识别 | arxiv 学术质量 6.3/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Aritra Marik（达姆施塔特工业大学， ELIZA）通讯作者：论文未明确标注通讯作者，但提供了三位作者的邮箱。作者列表：Aritra Marik（达姆施塔特工业大学， ELIZA）、Marcel Klemt（达姆施塔特工业大学， hessian.AI）、Anna Rohrbach（达姆施塔特工业大学， hessian.AI） 💡 毒舌点评论文的核心价值在于系统性地将“情感一致性”作为深度伪造检测的高阶语义信号，并设计了专用模块（EmoForensics）进行建模。然而，其“增强”效果高度依赖于强基线（SIMBA），且EmoForensics独立性能（在FakeAVCeleb上AUC 82.10%，在DeepSpeak v2上仅65.38%）与其声称的“互补性”角色存在巨大落差，这引发对其作为独立检测线索可靠性的根本质疑。在DeepSpeak v2数据集上的无效性也被轻描淡写地归因于数据集特性，缺乏深入分析。 📌 核心摘要要解决什么问题：随着生成式AI快速发展，深度伪造技术不断更新，现有检测模型难以泛化至训练时未见过的伪造类型，这是当前深度伪造检测研究面临的主要挑战。方法核心是什么：本文提出 Emo-Boost 框架，旨在通过引入高层语义线索——情感（Emotion）来提升现有基于低级特征的多模态检测器的跨操纵泛化能力。核心是设计了一个名为 EmoForensics 的情感感知检测器，它利用冻结的预训练情感识别模型提取音频和视觉情感表征，并通过时序 Transformer 建模模态内情感一致性，通过对比学习建模模态间情感一致性。Emo-Boost 通过简单的后期特征乘法融合，将 EmoForensics 的表征与现有多模态检测器（如 SIMBA）的表征相结合。与已有方法相比新在哪里：相比于主要关注像素级、频谱级伪影或跨模态对齐（如音素-视位匹配）的现有方法，本文首次系统性地将“情感一致性”作为一种高阶、稳定的伪造信号，并显式地设计了针对情感表征的跨模态和时序建模模块。此外，与先前情感检测工作相比，本文强调了使用冻结的预训练模型来应对伪造数据导致的情感识别模型分布偏移问题。主要实验结果如何：在 FakeAVCeleb 数据集的留一法（跨操纵）评估中，Emo-Boosted SIMBA 的平均 AUC 达到了 95.30%，相比基线 SIMBA（93.17%）提升了 2.13%。在 DeepSpeak v2 上，Emo-Boosted SIMBA（95.26%）与 SIMBA（95.30%）性能相当。消融实验证明，EmoForensics 中的时序 Transformer 和对比学习模块对性能有积极贡献。论文还通过稳定性分析（图4）显示，EmoForensics 在不同伪造类型上的性能波动（面积 12.50）小于 SIMBA（面积 32.98）。模型 FakeAVCeleb (平均 AUC) DeepSpeak v2 (平均 AUC) SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA 95.30 95.26 AVFF [34] 86.11 93.75 AVAD [12] 80.89 50.48 实际意义是什么：该工作为深度伪造检测提供了一个新的视角，即利用高阶语义信息作为补充线索，有助于提升检测器面对未知新伪造技术的鲁棒性，对内容安全审核领域有潜在应用价值。主要局限性是什么：EmoForensics 作为独立检测器的性能较弱；在数据集 DeepSpeak v2 上未观察到明显的性能提升，作者归因于该数据集情感表达不够自然；融合策略（特征乘法）的理论依据和有效性分析不足；未探讨情感特征在不同伪造攻击下的失效模式。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及具体模型权重获取链接。数据集：论文中使用了 FakeAVCeleb 和 DeepSpeak v2 数据集。论文中未提及具体获取链接或开源协议。 Demo：论文中未提及。复现材料：论文中提供了详细的实现细节、训练配置和超参数设置（见 Section 4 Implementation Details）。论文中未提及模型检查点获取方式。论文中引用的开源项目： POSTER (视觉情绪编码器): https://github.com/justinjohn0306/POSTER emotion2vec (音频情绪编码器): https://huggingface.co/lenagong/emotion2vec_finetuned SIMBA (用于Emo-Boost的基线多模态检测器): https://github.com/yzyou/SIMBA XceptionNet, LipForensics, AVAD, AVFF 等其他项目：论文中仅提及名称，未提供具体链接。 🏗️ 方法概述和架构 Figure 2: Overview of our proposed framework, Emo-Boost, and the emotion-based deepfake detection network, EmoForensics. ...

GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction

📄 GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction #数据集 #多模态模型 #情感识别 #基准测试 #协作交互 #过程建模 ✅ 6.8/10 | 前50% | #数据集 | #多模态模型 | #情感识别 #基准测试 | arxiv 学术质量 5.3/8 | 影响力 0.6/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Meisam Jamshidi Seikavandi（1GN Advanced Science, GN Group, Ballerup, Denmark；2IT University of Copenhagen, brAIn lab, Copenhagen, Denmark）。根据论文脚注“These authors contributed equally.”，Meisam Jamshidi Seikavandi、Alice Modica和Anna Obara为共同第一作者。通讯作者：未明确指定，但论文中将Meisam Jamshidi Seikavandi标注为“corresponding author”。作者列表：Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner。机构涉及GN Advanced Science (GN Group), IT University of Copenhagen, Copenhagen Business School, Aalborg University。 💡 毒舌点评这篇论文是一个扎实的“基础设施”工作。亮点在于其对数据集构建和发布的极高透明度要求：BIDS-inspired结构、Croissant元数据、详细的数据表、每会话质量报告，这为后续研究设立了一个可审计的标杆。它精准定位了多人、多模态、多层次（个体内/个体间/群体）情感分析数据集的空白，并通过精心设计的四个协作任务和同步的多传感器采集来填补。然而，短板也同样明显且根本：10组40人的样本量使得许多定义的“基准测试”在统计上形同虚设。论文中大量基准任务（特别是涉及个体间特质和群体动态的）的性能接近随机，其置信区间宽到无法得出任何稳健结论。这使得论文更像是一份“问题定义书”和“数据发布说明书”，而非一份能产出可靠科学发现的实验报告。基线模型的“失败”（如群体不平等性预测）更多暴露了数据量不足导致的过拟合，而非方法本身的缺陷。 ...

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频 #生成模型 #多模态模型 ✅ 6.5/10 | 前40% | #基准测试 | #模型评估 | #音视频 #生成模型 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构共同第一作者：Yujie Wei（复旦大学），Yujin Han（香港大学），Zhekai Chen（香港大学），Yongming Li（复旦大学）项目负责人：Shiwei Zhang（阿里巴巴通义实验室）通讯作者：Hongming Shan（复旦大学），Xihui Liu（香港大学）作者列表（按原文顺序）： Yujie Wei (1，复旦大学) Yujin Han (2*，香港大学) Zhekai Chen (2*，香港大学) Yongming Li (1*，复旦大学) Kaixun Jiang (1，复旦大学) Zhihang Liu (3，阿里巴巴通义实验室) Quanhao Li (1，复旦大学) Zhiwu Qing (3，阿里巴巴通义实验室) Xiang Wang (3，阿里巴巴通义实验室) Zhen Xing (3，阿里巴巴通义实验室) Ruihang Chu (3，阿里巴巴通义实验室) Lingyi Hong (1，复旦大学) Yefei He (4，浙江大学) Junjie Zhou (3，阿里巴巴通义实验室) Junqiu Yu (1，复旦大学) Yang Shi (5，北京大学) Difan Zou (2，香港大学) Kai Zhu (3，阿里巴巴通义实验室) Shiwei Zhang (3†，阿里巴巴通义实验室，项目负责人) Yingya Zhang (3，阿里巴巴通义实验室) Yu Liu (3，阿里巴巴通义实验室) Xihui Liu (2🖂，香港大学，通讯作者) Hongming Shan (1🖂，复旦大学，通讯作者) 💡 毒舌点评亮点：论文精准切入“多镜头音视频（MSAV）生成”这一前沿评测空白，提出了首个综合性基准MSAVBench。其数据设计（四维度：视频、音频、镜头、参考）和评估框架（自校正、分层评分、工具增强代理）的系统性与前瞻性值得肯定，对19个模型的评估也提供了有价值的生态诊断。短板：论文的核心贡献在于构建一个评测“系统”和“报告”，而非提出新的生成模型或基础算法。其创新性更偏向工程设计和方法论集成，在追求算法理论突破的顶会中，原创性“硬度”不足。同时，对评估框架自身的深入分析（如不同VLM的影响、成本分析）略显仓促，对评测结果的解读存在过度泛化的风险。 ...

OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding #视频理解 #基准测试 #多模态模型 #流式处理 #大语言模型 ✅ 7.3/10 | 前25% | #视频理解 | #基准测试 | #多模态模型 #流式处理 | arxiv 学术质量 6/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Ruixiang Zhao（中国人民大学）通讯作者：Xirong Li（中国人民大学），Jie Yang（腾讯微信视觉）作者列表：Ruixiang Zhao（中国人民大学）、Jie Yang（腾讯微信视觉）、Zijie Xin（中国人民大学）、Tianyi Wang（腾讯微信视觉）、Fengyun Rao（腾讯微信视觉）、Jing LYU（腾讯微信视觉）、Xirong Li（中国人民大学） 💡 毒舌点评该工作系统性地指出了现有主动流式视频理解基准在全模态、主动性和任务多样性上的不足，并提出了一个整合性的评估框架（任务分类法、双模式协议）。其核心贡献在于定义了“好的全模态主动流式模型”的三个标准，并将它们放入统一的评估标尺中，对社区具有明确的指引价值。然而，作为一项基准测试工作，其自身价值高度依赖于数据质量与评估设计的严谨性。数据完全由单一大模型（Gemini）生成且无人工标注的多样性，这一关键决策可能引入系统性偏差，严重影响基准的长期可靠性。此外，在线评估仅涵盖三个模型，且其F1指标的具体实现细节（如开放任务由LLM裁判评分）的稳定性与公平性有待更深入的验证。 📌 核心摘要问题：现有流式视频理解基准存在三大缺陷：主要依赖视觉信号、采用轮询或固定时间戳的被动评估方式、覆盖任务有限，无法可靠地区分和评估具备“主动”能力的全模态大模型。方法核心：提出首个联合评估全模态感知、主动响应和多样化任务能力的基准 OmniPro。核心包括一个包含3级认知水平、9个子任务的任务分类法；一个结合密集描述、大模型生成和两轮人工审核的数据构建流程；以及一个包含Probe（评估内容理解）和Online（评估流式主动能力）的双模式评估协议。新意：首次在统一框架下，系统性地评估模型在全模态感知（音频至关重要）、主动决策何时响应以及广泛任务理解这三方面的能力。特别强调了非语音音频的作用，并设计了支持多次响应和惩罚误触发的在线评估F1指标。主要实验结果：评估了11个代表性模型。主要发现：(1) 音频带来一致性增益但模型利用率差异巨大（AV输入比V输入平均提升+2.4至+11.1分）；(2) 性能随触发时间推后严重衰减，模型仅能保持早期性能的37%；(3) 非语音音频感知是所有模型的共同短板。最强闭源模型（Gemini-3-Flash，Probe模式40.4%准确率）与最强开源模型（Qwen3-Omni，22.6%）存在巨大差距。实际意义：为快速发展的全模态主动流式大模型提供了首个全面的评估标准和测试平台，明确了当前模型在长期感知、音频理解等方面的具体短板，指导未来模型研发方向。主要局限性：所有问答和标注均为英文，限制了多语言评估；在线评估仅测试了3个模型，对流式架构能力的揭示可能不足；数据构建完全依赖单一大模型生成，可能引入分布偏差且无人工标注的多样性。 🔗 开源详情代码：论文中承诺开源评估代码和数据生成提示模板，并在附录中提供了完整示例。项目主页为 https://ruixiangzhao.github.io/OmniPro ，但论文中未直接给出代码仓库的具体URL（如GitHub链接）。模型权重：论文中未提及模型权重的具体下载链接。论文评估了多个开源模型（如Qwen2.5-Omni、Qwen3-Omni、video-SALMONN 2+、VideoLLaMA2.1-AV、Phi-4-multimodal、InternVL3.5、Qwen3-VL、MiniCPM-o 4.5、MMDuet2、LiveStar），但未提供OmniPro基准或评估用模型的权重链接。数据集：数据集名称：OmniPro 开源协议：CC BY-NC 4.0（见附录C.3）获取链接：论文中未提及具体下载链接。项目主页可能包含数据访问方式。数据来源：视频来自 LongVALE (CC-BY-NC-SA-4.0) 和 COIN (CC BY-NC 4.0) 数据集的测试集（见附录C.3）。 Demo：论文中未提及在线演示链接。复现材料：论文附录提供了用于数据生成的提示词模板（Dense Captioning Prompt和各子任务的QA Generation Prompts）。评估代码承诺开源但未提供链接。未提供训练配置或检查点（因本工作不涉及模型训练）。论文中引用的开源项目：论文中评估了多个开源模型及其各自资源，但未明确引用除评估模型外的其他特定开源项目或工具。 🏗️ 方法概述和架构本论文是一项基准测试构建工作，其核心“方法”是定义了一个全新的评估框架和数据集，而非一个可训练的模型架构。其流程是：源视频收集 → 自动化密集描述与QA生成 → 人工质量控制 → 双模式评估协议执行。 ...

When Vision Speaks for Sound

📄 When Vision Speaks for Sound #音视频 #偏好优化 #多模态模型 #鲁棒性 #诊断框架 ✅ 7.7/10 | 前25% | #音视频 | #偏好优化 | #多模态模型 #鲁棒性 | arxiv 学术质量 6/8 | 影响力 0.9/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Xiaofei Wen（University of California, Davis）通讯作者：论文未明确标注通讯作者。作者列表：Xiaofei Wen（University of California, Davis）、Wenjie Jacky Mo（University of California, Davis）、Xingyu Fu（Princeton University）、Rui Cai（University of California, Davis）、Tinghui Zhu（University of California, Davis）、Wendi Li（University of Wisconsin–Madison）、Yanan Xie（Uniphore）、Muhao Chen（University of California, Davis）、Peng Qi（Uniphore）。注：Xiaofei Wen与Wenjie Jacky Mo标注为共同第一作者（d）。 💡 毒舌点评这篇论文敏锐地抓住了当前视频多模态模型“重看轻听”的要害，用一个精巧的Thud诊断框架把“聪明汉斯效应”量化得明明白白。提出的两阶段对齐配方（SFT+DPO+混合数据）在解决特定问题上取得了显著的数值提升，尤其是时间同步任务。然而，论文的核心结论“28%平均提升”主要建立在自建的Thud诊断集上，其泛化性存疑。更关键的是，对Mute和Swap两种干预的对齐训练探索极为初步，远未达到时间同步任务的深度，这使得论文关于“干预训练可扩展”的论断显得根基不稳。实验主要基于单一基座模型（Qwen3-Omni-30B），在更广泛模型上的有效性未经验证，限制了工作的普适性。 ...

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Yanyun Wang 通讯作者：未在论文中明确指定作者列表：Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu（所有作者所属机构信息未在论文正文中提供，仅在作者姓名下方列出，未明确给出具体机构名称） 💡 毒舌点评本文的核心亮点是提出了一个范式级别的创新——“声学干扰”，巧妙地将攻击载荷从“恶意音频内容”解耦，利用生成模型先验中的良性声学特征作为通用触发器，这思路极具启发性且实验验证充分。然而，一个必须严肃质疑的根本问题是：整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么，AIA对目标LALM的“通用性”是否隐含了一个关键假设，即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性？如果目标LALM的音频处理架构与Bark差异巨大，这种“声学干扰”的迁移性还能成立吗？论文对此核心假设缺乏深入的理论或实验讨论，使得“通用性”的宣称打了折扣。此外，所有评估严重依赖GPT-4o作为裁判，尽管引入了外部模型验证，但“运动员兼裁判”的风险依然存在。 📌 核心摘要问题：现有针对大音频语言模型（LALM）的越狱攻击范式（优化语义、控制声学参数、添加扰动）都将恶意音频内容作为攻击载荷，存在效率低、耦合性强等根本局限。本文挑战了这种必要性。方法核心：提出“声学干扰”新范式和“声学干扰攻击”（AIA）。核心是利用特定的“声学潜在语义”（ALS）——从生成模型（Bark）先验中挖掘的、内容良性的内在副语言特征——作为通用触发器，干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现，无需实例特定优化。两阶段攻击流程：先尝试纯文本越狱，若失败则从ALS库中依次选取音频与文本组合查询。创新点：首次发现并定义“声学干扰”现象；提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA；通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制；构建了可解释的12维ALS索引系统。实验结果：在10个LALM（7开源，3闭源）和5个数据集上验证了AIA的有效性。以表2为例，在JBB数据集上，AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%，对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中（表3），AIA在多个模型上取得了SOTA或接近SOTA的攻击效果，且查询开销相对较低。实际意义：揭示了当前LALM跨模态安全对齐的根本性脆弱性，即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。局限性：攻击有效性高度依赖于作为代理模型的Bark；未探讨防御策略；部分基线对比数据来自不同评测标准（JALMBench的宽松评分）。 🔗 开源详情代码：https://flaai.github.io/AIA_page 模型权重：论文中未提及数据集： JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为：https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为：https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为：https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/HarmBench。 Demo：论文中未提及在线演示链接，但提供了项目主页 https://flaai.github.io/AIA_page。复现材料：论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。论文中引用的开源项目： Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名，链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型，无开源链接。 🏗️ 方法概述和架构整体流程概述：本文提出的声学干扰攻击（AIA）是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示（text jailbreak）和目标LALM。第一阶段（文本测试），系统先用原始文本多次查询LALM；若文本本身未能成功越狱，则进入第二阶段（音频干扰），从预构建并排序的通用声学干扰音频库（ALS武器库）中依次选取音频，与文本组合成多模态查询，直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...

Audio-Image Cross-Modal Retrieval with Onomatopoeic Images

📄 Audio-Image Cross-Modal Retrieval with Onomatopoeic Images #音频检索 #迁移学习 #跨模态 #多模态模型 #数据集 ✅ 7/10 | 前50% | #音频检索 | #迁移学习 | #跨模态 #多模态模型 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Keisuke Imoto（Kyoto University, Japan）通讯作者：未说明作者列表：Keisuke Imoto（Kyoto University, Japan）、Yamato Kojima（Doshisha University, Japan）、Takao Tsuchiya（Doshisha University, Japan） 💡 毒舌点评本文的亮点在于首次定义了“拟声图像-声音检索”这一具体且有趣的小众问题，并构建了首个专用数据集MIAO，填补了该交叉领域的空白。然而，其技术贡献主要是在成熟的CLIP和CLAP之上“堆叠”了一个两层MLP投影头，方法的原创性和技术深度较为有限，更像是一个针对特定数据集的适配实验而非一个具有普遍启发性的方法论突破。审稿人可能会质疑，在缺乏更强大的基线对比和充分消融实验的情况下，该工作的说服力和对社区的贡献有限。 📌 核心摘要这篇论文旨在解决多媒体创作（如漫画）中，创作者希望根据画面中拟声词的视觉表现（拟声图像）来检索匹配的声音，或根据声音检索合适拟声图像的实际需求。目前，拟声图像与声音之间的跨模态检索尚未被研究。论文提出了一种双向检索框架，其核心方法是在冻结的预训练CLIP图像编码器和CLAP音频编码器之上，为每个模态分别训练一个轻量的两层MLP投影头，将它们的特征重新对齐到一个共享的嵌入空间，而非直接比较原始嵌入。与直接使用预训练CLIP和CLAP嵌入的零样本基线相比，该方法在双向检索任务上取得了显著的性能提升。论文还构建了包含50个声音事件类别、850个配对样本的首个多模态拟声图像-音频数据集（MIAO）。主要实验结果表明，所提方法在图像到音频检索（I2A）上的mAP从基线的6.77%提升至61.45%，在音频到图像检索（A2I）上从7.82%提升至61.08%。这项工作的实际意义在于为多媒体创作提供了自动化的跨模态检索工具雏形。主要局限性在于所提方法相对简单，且数据集中拟声图像的视觉多样性（因插画师风格不同）是导致检索错误的主要原因，论文未提出更鲁棒的表征方法来应对此问题。方法任务 mAP (%) R@1 (%) R@5 (%) MRR 零样本基线 I2A 6.77 ± 0.00 2.00 ± 0.00 9.00 ± 0.00 0.076 ± 0.00 零样本基线 A2I 7.82 ± 0.00 6.00 ± 0.00 10.00 ± 0.00 0.116 ± 0.00 提出方法 I2A 61.45 ± 1.71 53.60 ± 2.41 68.90 ± 2.69 0.60 ± 0.02 提出方法 A2I 61.08 ± 1.84 64.60 ± 3.37 88.20 ± 2.66 0.75 ± 0.03 表1：零样本基线与提出方法在MIAO测试集上的双向检索性能对比 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：Multimodal Image-Audio Onomatopoeia dataset (MIAO)。获取链接：https://huggingface.co/datasets/KeisukeImoto/MIAO。 Demo：论文中未提及。复现材料：论文中提及了训练配置（超参数等），但未提供检查点或附录等详细复现材料。论文中引用的开源项目： CLIP (Contrastive Language–Image Pre-training)： https://github.com/openai/CLIP CLAP (Contrastive Language-Audio Pre-training)： https://github.com/LAION-AI/CLAP AudioCLIP： https://github.com/shikkunchoi/AudioCLIP Wav2CLIP： https://github.com/seungheondoh/wav2clip ImageBind： https://github.com/facebookresearch/ImageBind FSD50K： https://zenodo.org/record/4060432 HTS-AT：论文将其作为CLAP音频编码器的骨干网络引用，但未直接提供其独立开源链接。 🏗️ 方法概述和架构 ...

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

📄 CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook #多模态模型 #对比学习 #向量量化 #零样本 #模型评估 #解耦表示学习 🔥 8.6/10 | 前15% | #多模态模型 | #对比学习 | #向量量化 #零样本 | arxiv 学术质量 7/8 | 影响力 0.8/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Zeyu Chen（Visual AI Lab, The University of Hong Kong）通讯作者：Kai Han（Visual AI Lab, The University of Hong Kong）作者列表：Zeyu Chen（Visual AI Lab, The University of Hong Kong）、Jie Li（Visual AI Lab, The University of Hong Kong）、Kai Han（Visual AI Lab, The University of Hong Kong） 💡 毒舌点评这篇论文在解决多模态对齐中的“硬对齐”信息损失和模态不平衡问题上，提出了一种工程上优雅且实验上非常扎实的方案。“共享-特定”解耦表示加上“组合码本”的设计，确实巧妙地平衡了对齐保真度与信息完整性。其实验覆盖之广（9种模态，17个数据集）令人印象深刻，堪称多模态领域的“暴力美学”。然而，其理论根基稍显薄弱：为何“均匀分布”与“正交性”假设是解耦的最优或必要约束？组合VQ在理论上为何优于其他容量扩展方案（如稀疏MoE）？这些更多依赖经验证据而非第一性原理。此外，论文声称“无需大规模完全配对数据”，但其训练仍高度依赖现有配对数据集，这一claim需审慎看待。 ...

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation #音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型 ✅ 7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Yuheng Chen（上海交通大学）通讯作者：Qingdong He（电子科技大学，论文中标注为对应作者及项目负责人）作者列表：Yuheng Chen（上海交通大学，等同贡献）、Qingdong He（电子科技大学，等同贡献）、Teng Hu（上海交通大学）、Yuji Wang（上海交通大学）、Yabiao Wang（浙江大学）、Lizhuang Ma（上海交通大学）、Jiangning Zhang（浙江大学，对应作者） 💡 毒舌点评这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架，其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效，SA-MRoPE的位置编码设计思路也具启发性。然而，其核心的OCF模块本质上是标准Transformer块对拼接序列的处理，架构创新度有限，且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱，更像是一次成功的系统工程集成而非深度理论探索。 📌 核心摘要本文旨在解决在联合音视频生成中，为多个主体同时保持其视觉身份和声音音色，并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定，以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer，一个端到端框架。其核心方法包括：1) Omni-Context Fusion (OCF) 模块，将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列，通过L层专用Transformer块进行深度跨模态交互，以富化文本表示；2) Semantic-Anchored Multimodal RoPE (SA-MRoPE)，为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码，实现语义锚定；3) Masked TTS Cross-Attention (MTP-CA)，通过二进制掩码机制，确保TTS语音信息仅注入到提示词中被<S>和<E>标签包裹的对话部分，消除“Caption Vocalization”异常。此外，论文提出了交错式模态解耦训练策略（交替进行联合音视频训练和纯音频训练）和渐进式课程学习（从单主体配对到多主体非配对数据），以在不损害基础模型能力的前提下，让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程，并提出了新的评估基准OC-Bench。实验在OC-Bench上进行，结果表明，Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。 ...

SIREM: Speech-Informed MRI Reconstruction with Learned Sampling

📄 SIREM: Speech-Informed MRI Reconstruction with Learned Sampling #医学图像重建 #多模态模型 #实时处理 #高效推理 #语音信号 #可学习采样 ✅ 7.3/10 | 前40% | #医学图像重建 | #多模态模型 | #实时处理 #高效推理 | arxiv 学术质量 6.1/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Md Hasan（Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab）通讯作者：Paula A. Pérez-Toro（Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab）作者列表：Md Hasan（Pattern Recognition Lab, FAU），Nyvenn Castro（Institute of Radiology, University Hospital Erlangen），Daiqi Liu（Pattern Recognition Lab, FAU），Lukas Mulzer（Pattern Recognition Lab, FAU），Jana Hutter（Institut für Informationsverarbeitung, Leibniz Universität Hannover），Jonghye Woo（Department of Radiology, Harvard Medical School and Massachusetts General Hospital），Moritz Zaiss（Institute of Radiology, University Hospital Erlangen），Andreas Maier（Pattern Recognition Lab, FAU），Paula A. Pérez-Toro（Pattern Recognition Lab, FAU） 💡 毒舌点评论文提出了一个极具洞察力的跨模态融合思路，将语音信号作为实时MRI重建的显式先验，概念新颖且物理动机扎实。然而，其核心验证存在“自证”困境：关键的“语音解释性”空间权重图（w_EbA）由手动分割掩码提供，这相当于用解剖学知识预先定义了语音的有效区域，极大地削弱了模型“学习”跨模态关联的创新性，并导致方法在更通用或数据有限的场景下的有效性存疑。实验基线选择偏弱，缺乏与现代深度学习重建方法的对比，使得其“速度优势”的宣称说服力不足。尽管如此，该工作首次系统性地探索了多模态融合在rtMRI重建中的可行性，其开创性价值值得肯定。 ...