多模态模型

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models #音频安全 #对抗样本 #多模态模型 #基准测试 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv 学术质量 7.3/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Yanyun Wang 通讯作者：未在论文中明确指定作者列表：Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu（所有作者所属机构信息未在论文正文中提供，仅在作者姓名下方列出，未明确给出具体机构名称） 💡 毒舌点评本文的核心亮点是提出了一个范式级别的创新——“声学干扰”，巧妙地将攻击载荷从“恶意音频内容”解耦，利用生成模型先验中的良性声学特征作为通用触发器，这思路极具启发性且实验验证充分。然而，一个必须严肃质疑的根本问题是：整个“通用”ALS武器库的构建完全依赖于Bark模型的特定先验。那么，AIA对目标LALM的“通用性”是否隐含了一个关键假设，即这些LALM的音频编码器与Bark的生成空间存在某种未知的共性？如果目标LALM的音频处理架构与Bark差异巨大，这种“声学干扰”的迁移性还能成立吗？论文对此核心假设缺乏深入的理论或实验讨论，使得“通用性”的宣称打了折扣。此外，所有评估严重依赖GPT-4o作为裁判，尽管引入了外部模型验证，但“运动员兼裁判”的风险依然存在。 📌 核心摘要问题：现有针对大音频语言模型（LALM）的越狱攻击范式（优化语义、控制声学参数、添加扰动）都将恶意音频内容作为攻击载荷，存在效率低、耦合性强等根本局限。本文挑战了这种必要性。方法核心：提出“声学干扰”新范式和“声学干扰攻击”（AIA）。核心是利用特定的“声学潜在语义”（ALS）——从生成模型（Bark）先验中挖掘的、内容良性的内在副语言特征——作为通用触发器，干扰LALM的安全对齐路径。攻击通过一个离线构建、预排序的通用中性ALS音频库实现，无需实例特定优化。两阶段攻击流程：先尝试纯文本越狱，若失败则从ALS库中依次选取音频与文本组合查询。创新点：首次发现并定义“声学干扰”现象；提出首个解耦攻击载荷与音频模态的通用黑盒越狱方法AIA；通过可解释性分析揭示了干扰诱导的“推理路径漂移”机制；构建了可解释的12维ALS索引系统。实验结果：在10个LALM（7开源，3闭源）和5个数据集上验证了AIA的有效性。以表2为例，在JBB数据集上，AIA使Qwen2.5-Omni的ASR-M从文本基线的50.98%提升至100.00%，对GPT-4o-Audio从56.10%提升至75.61%。在与现有方法的对比中（表3），AIA在多个模型上取得了SOTA或接近SOTA的攻击效果，且查询开销相对较低。实际意义：揭示了当前LALM跨模态安全对齐的根本性脆弱性，即安全机制可能被内容无关的声学特征所干扰。为攻击和防御研究提供了新方向。局限性：攻击有效性高度依赖于作为代理模型的Bark；未探讨防御策略；部分基线对比数据来自不同评测标准（JALMBench的宽松评分）。 🔗 开源详情代码：https://flaai.github.io/AIA_page 模型权重：论文中未提及数据集： JBB-Behaviors (from JailbreakBench): 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/JailbreakBench。 WildJailbreak: 论文引用了该数据集。其获取链接通常为：https://huggingface.co/datasets/AI-LLM/WildJailbreak。 HH-RLHF: 论文引用了该数据集。其获取链接通常为：https://github.com/anthropics/hh-rlhf。 AdvBench: 论文引用了该数据集。其获取链接通常为：https://github.com/linyiZh/AdvBench。 HarmBench: 论文引用了该数据集。其获取链接通常为：https://github.com/centerforaisafety/HarmBench。 Demo：论文中未提及在线演示链接，但提供了项目主页 https://flaai.github.io/AIA_page。复现材料：论文中未提及具体的训练配置、检查点下载链接。文中提到了构建的“ALS arsenal”以及附录中提供了算法伪代码、12维标签系统定义等复现所需的部分具体信息。论文中引用的开源项目： Bark (文本转语音模型): https://github.com/suno-ai/bark CLAP (对比音频预训练模型): https://github.com/LAION-AI/CLAP WavLM (音频表示模型): https://github.com/microsoft/unilm/tree/master/wavlm JailbreakBench: https://github.com/centerforaisafety/JailbreakBench WildJailbreak: https://huggingface.co/datasets/AI-LLM/WildJailbreak HH-RLHF: https://github.com/anthropics/hh-rlhf AdvBench: https://github.com/linyiZh/AdvBench HarmBench: https://github.com/centerforaisafety/HarmBench Llama Guard 3: 论文提及模型名，链接未提供。其官方信息通常来自 Meta AI。 GPT-4o / GPT-4o-mini: OpenAI的专有模型，无开源链接。 🏗️ 方法概述和架构整体流程概述：本文提出的声学干扰攻击（AIA）是一个两阶段的黑盒攻击框架。输入是一个恶意的文本越狱提示（text jailbreak）和目标LALM。第一阶段（文本测试），系统先用原始文本多次查询LALM；若文本本身未能成功越狱，则进入第二阶段（音频干扰），从预构建并排序的通用声学干扰音频库（ALS武器库）中依次选取音频，与文本组合成多模态查询，直至成功或达到尝试上限。输出为是否成功诱导模型生成有害回应。 ...

Audio-Image Cross-Modal Retrieval with Onomatopoeic Images

📄 Audio-Image Cross-Modal Retrieval with Onomatopoeic Images #音频检索 #迁移学习 #跨模态 #多模态模型 #数据集 ✅ 7/10 | 前50% | #音频检索 | #迁移学习 | #跨模态 #多模态模型 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Keisuke Imoto（Kyoto University, Japan）通讯作者：未说明作者列表：Keisuke Imoto（Kyoto University, Japan）、Yamato Kojima（Doshisha University, Japan）、Takao Tsuchiya（Doshisha University, Japan） 💡 毒舌点评本文的亮点在于首次定义了“拟声图像-声音检索”这一具体且有趣的小众问题，并构建了首个专用数据集MIAO，填补了该交叉领域的空白。然而，其技术贡献主要是在成熟的CLIP和CLAP之上“堆叠”了一个两层MLP投影头，方法的原创性和技术深度较为有限，更像是一个针对特定数据集的适配实验而非一个具有普遍启发性的方法论突破。审稿人可能会质疑，在缺乏更强大的基线对比和充分消融实验的情况下，该工作的说服力和对社区的贡献有限。 📌 核心摘要这篇论文旨在解决多媒体创作（如漫画）中，创作者希望根据画面中拟声词的视觉表现（拟声图像）来检索匹配的声音，或根据声音检索合适拟声图像的实际需求。目前，拟声图像与声音之间的跨模态检索尚未被研究。论文提出了一种双向检索框架，其核心方法是在冻结的预训练CLIP图像编码器和CLAP音频编码器之上，为每个模态分别训练一个轻量的两层MLP投影头，将它们的特征重新对齐到一个共享的嵌入空间，而非直接比较原始嵌入。与直接使用预训练CLIP和CLAP嵌入的零样本基线相比，该方法在双向检索任务上取得了显著的性能提升。论文还构建了包含50个声音事件类别、850个配对样本的首个多模态拟声图像-音频数据集（MIAO）。主要实验结果表明，所提方法在图像到音频检索（I2A）上的mAP从基线的6.77%提升至61.45%，在音频到图像检索（A2I）上从7.82%提升至61.08%。这项工作的实际意义在于为多媒体创作提供了自动化的跨模态检索工具雏形。主要局限性在于所提方法相对简单，且数据集中拟声图像的视觉多样性（因插画师风格不同）是导致检索错误的主要原因，论文未提出更鲁棒的表征方法来应对此问题。方法任务 mAP (%) R@1 (%) R@5 (%) MRR 零样本基线 I2A 6.77 ± 0.00 2.00 ± 0.00 9.00 ± 0.00 0.076 ± 0.00 零样本基线 A2I 7.82 ± 0.00 6.00 ± 0.00 10.00 ± 0.00 0.116 ± 0.00 提出方法 I2A 61.45 ± 1.71 53.60 ± 2.41 68.90 ± 2.69 0.60 ± 0.02 提出方法 A2I 61.08 ± 1.84 64.60 ± 3.37 88.20 ± 2.66 0.75 ± 0.03 表1：零样本基线与提出方法在MIAO测试集上的双向检索性能对比 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：Multimodal Image-Audio Onomatopoeia dataset (MIAO)。获取链接：https://huggingface.co/datasets/KeisukeImoto/MIAO。 Demo：论文中未提及。复现材料：论文中提及了训练配置（超参数等），但未提供检查点或附录等详细复现材料。论文中引用的开源项目： CLIP (Contrastive Language–Image Pre-training)： https://github.com/openai/CLIP CLAP (Contrastive Language-Audio Pre-training)： https://github.com/LAION-AI/CLAP AudioCLIP： https://github.com/shikkunchoi/AudioCLIP Wav2CLIP： https://github.com/seungheondoh/wav2clip ImageBind： https://github.com/facebookresearch/ImageBind FSD50K： https://zenodo.org/record/4060432 HTS-AT：论文将其作为CLAP音频编码器的骨干网络引用，但未直接提供其独立开源链接。 🏗️ 方法概述和架构 ...

CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook

📄 CodeBind: Decoupled Representation Learning for Multimodal Alignment with Unified Compositional Codebook #多模态模型 #对比学习 #向量量化 #零样本 #模型评估 #解耦表示学习 🔥 8.6/10 | 前15% | #多模态模型 | #对比学习 | #向量量化 #零样本 | arxiv 学术质量 7/8 | 影响力 0.8/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Zeyu Chen（Visual AI Lab, The University of Hong Kong）通讯作者：Kai Han（Visual AI Lab, The University of Hong Kong）作者列表：Zeyu Chen（Visual AI Lab, The University of Hong Kong）、Jie Li（Visual AI Lab, The University of Hong Kong）、Kai Han（Visual AI Lab, The University of Hong Kong） 💡 毒舌点评这篇论文在解决多模态对齐中的“硬对齐”信息损失和模态不平衡问题上，提出了一种工程上优雅且实验上非常扎实的方案。“共享-特定”解耦表示加上“组合码本”的设计，确实巧妙地平衡了对齐保真度与信息完整性。其实验覆盖之广（9种模态，17个数据集）令人印象深刻，堪称多模态领域的“暴力美学”。然而，其理论根基稍显薄弱：为何“均匀分布”与“正交性”假设是解耦的最优或必要约束？组合VQ在理论上为何优于其他容量扩展方案（如稀疏MoE）？这些更多依赖经验证据而非第一性原理。此外，论文声称“无需大规模完全配对数据”，但其训练仍高度依赖现有配对数据集，这一claim需审慎看待。 ...

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation #音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型 ✅ 7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Yuheng Chen（上海交通大学）通讯作者：Qingdong He（电子科技大学，论文中标注为对应作者及项目负责人）作者列表：Yuheng Chen（上海交通大学，等同贡献）、Qingdong He（电子科技大学，等同贡献）、Teng Hu（上海交通大学）、Yuji Wang（上海交通大学）、Yabiao Wang（浙江大学）、Lizhuang Ma（上海交通大学）、Jiangning Zhang（浙江大学，对应作者） 💡 毒舌点评这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架，其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效，SA-MRoPE的位置编码设计思路也具启发性。然而，其核心的OCF模块本质上是标准Transformer块对拼接序列的处理，架构创新度有限，且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱，更像是一次成功的系统工程集成而非深度理论探索。 📌 核心摘要本文旨在解决在联合音视频生成中，为多个主体同时保持其视觉身份和声音音色，并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定，以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer，一个端到端框架。其核心方法包括：1) Omni-Context Fusion (OCF) 模块，将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列，通过L层专用Transformer块进行深度跨模态交互，以富化文本表示；2) Semantic-Anchored Multimodal RoPE (SA-MRoPE)，为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码，实现语义锚定；3) Masked TTS Cross-Attention (MTP-CA)，通过二进制掩码机制，确保TTS语音信息仅注入到提示词中被<S>和<E>标签包裹的对话部分，消除“Caption Vocalization”异常。此外，论文提出了交错式模态解耦训练策略（交替进行联合音视频训练和纯音频训练）和渐进式课程学习（从单主体配对到多主体非配对数据），以在不损害基础模型能力的前提下，让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程，并提出了新的评估基准OC-Bench。实验在OC-Bench上进行，结果表明，Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。 ...

SIREM: Speech-Informed MRI Reconstruction with Learned Sampling

📄 SIREM: Speech-Informed MRI Reconstruction with Learned Sampling #医学图像重建 #多模态模型 #实时处理 #高效推理 #语音信号 #可学习采样 ✅ 7.3/10 | 前40% | #医学图像重建 | #多模态模型 | #实时处理 #高效推理 | arxiv 学术质量 6.1/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Md Hasan（Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab）通讯作者：Paula A. Pérez-Toro（Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab）作者列表：Md Hasan（Pattern Recognition Lab, FAU），Nyvenn Castro（Institute of Radiology, University Hospital Erlangen），Daiqi Liu（Pattern Recognition Lab, FAU），Lukas Mulzer（Pattern Recognition Lab, FAU），Jana Hutter（Institut für Informationsverarbeitung, Leibniz Universität Hannover），Jonghye Woo（Department of Radiology, Harvard Medical School and Massachusetts General Hospital），Moritz Zaiss（Institute of Radiology, University Hospital Erlangen），Andreas Maier（Pattern Recognition Lab, FAU），Paula A. Pérez-Toro（Pattern Recognition Lab, FAU） 💡 毒舌点评论文提出了一个极具洞察力的跨模态融合思路，将语音信号作为实时MRI重建的显式先验，概念新颖且物理动机扎实。然而，其核心验证存在“自证”困境：关键的“语音解释性”空间权重图（w_EbA）由手动分割掩码提供，这相当于用解剖学知识预先定义了语音的有效区域，极大地削弱了模型“学习”跨模态关联的创新性，并导致方法在更通用或数据有限的场景下的有效性存疑。实验基线选择偏弱，缺乏与现代深度学习重建方法的对比，使得其“速度优势”的宣称说服力不足。尽管如此，该工作首次系统性地探索了多模态融合在rtMRI重建中的可行性，其开创性价值值得肯定。 ...

VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation

📄 VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation #对话情感识别 #多模态模型 #视觉语言模型 #提示工程 #可靠性建模 ✅ 7.4/10 | 前25% | #对话情感识别 | #多模态模型 | #视觉语言模型 #提示工程 | arxiv 学术质量 6.2/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Linan ZHU（浙江工业大学）通讯作者：未明确说明（论文中未标注）。作者列表：Linan ZHU（浙江工业大学），Zihao Zhai（浙江工业大学），Xiao Han（浙江工业大学），Yuqian Fu（苏黎世联邦理工学院），Xiangfan Chen（浙江工业大学），Xiangjie Kong（浙江工业大学），Guojiang Shen（浙江工业大学） 💡 毒舌点评这篇论文巧妙地将大型视觉语言模型（VLM）作为免训练的特征提取器，用于对话情感识别中的视觉线索定位，其“说话人中心”视角和“可靠性引导补全”的设计理念值得肯定。然而，其理论保证（定理1）的推导略显牵强，协方差项的解释依赖于未被严格验证的假设（如视觉置信度与损失负相关），而实验中MELD数据集上与SDT的加权F1差距微乎其微（0.52%），削弱了其“显著优于SOTA”的声明说服力。 📌 核心摘要本文针对会话情感识别（ERC）任务中，现有视觉语言模型（VLM）无法自动聚焦活跃说话人的情感视觉线索，以及视觉信号本身存在模糊性和不可靠性的问题，提出了一个两阶段框架VISAFF。核心方法是：第一阶段（SCAG），通过精心设计的提示（包括任务提示、说话人参考图像和情感语义引导）在不微调冻结VLM的情况下，引导其提取以说话人为中心的视觉情感特征；第二阶段（RGAC），根据视觉特征的可靠性，动态地从文本和声学模态中检索互补信息，以修正不可靠的视觉特征。与已有方法相比，新在利用冻结VLM的免训练能力和设计可靠性引导的自适应多模态补全机制。主要实验结果：在MELD和IEMOCAP数据集上，VISAFF在不微调VLM的前提下，加权F1分数分别达到67.12%和77.30%，优于所有未微调大模型的基线方法，其中在IEMOCAP上相比最佳基线DialogueLLM提升13.52个百分点（绝对值）。其实际意义在于为ERC提供了一种高效（无需训练VLM）且鲁棒（多模态补全）的视觉建模思路。主要局限性包括：理论分析的严密性有待加强，以及对免训练提示工程的性能上限缺乏探讨。图2展示了VISAFF的两阶段架构。第一阶段，说话人中心情感定位（SCAG）模块接收视频帧、说话人参考图像和组合提示，通过冻结的VLM提取视觉特征。第二阶段，可靠性引导情感补全（RGAC）模块以视觉特征为查询，通过交叉注意力从文本和声学特征中检索参考信息，并计算视觉可靠性分数，对视觉特征进行残差补全，最后融合多模态特征进行分类。 🔗 开源详情代码：https://anonymous.4open.science/r/speaker-2365/ 模型权重：论文中未提及具体权重获取链接。论文提到使用了 Qwen3-VL-Embedding 作为骨干视觉语言模型 (VLM)，但未提供其预训练权重的下载地址。数据集：论文中未提及具体下载链接，但明确使用了两个公开基准数据集： MELD (Multimodal EmotionLines Dataset) IEMOCAP (Interactive Emotional Dyadic Motion Capture Database) 实验遵循了这两个数据集的官方训练、验证和测试集划分。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及具体的训练配置文件、环境依赖文件或模型检查点。论文详述了框架结构、训练目标（公式 9）和算法流程（Algorithm 1），并提及所有实验在单块 NVIDIA RTX 4090 GPU 上进行。论文中引用的开源项目：论文在相关工作部分提到了多种方法，但未明确给出这些方法具体实现的代码仓库链接。文中提及的开源相关预训练模型或工具（如 RoBERTa-large、emotion2vec-large、Qwen3-VL、InternVL）也未提供官方链接。 🏗️ 方法概述和架构本文提出VISAFF，一个两阶段的说话人中心视觉情感特征学习框架，用于对话情感识别（ERC）。给定一个对话，每个话语包含视频片段、文本转录和音频片段，目标是预测情感标签。如图2所示，VISAFF由两个顺序阶段组成：说话人中心情感锚定（SCAG）和可靠性引导情感补全（RGAC）。 ...

Sound Sparks Motion: Audio and Text Tuning for Video Editing

📄 Sound Sparks Motion: Audio and Text Tuning for Video Editing #视频编辑 #测试时调优 #音视频 #多模态模型 📝 5.5/10 | 前25% | #视频编辑 | #测试时调优 | #音视频 #多模态模型 | arxiv 学术质量 4.7/8 | 影响力 0.6/1 | 可复现性 0.2/1 | 置信度中 👥 作者与机构第一作者：AmirHossein Naghi Razlighi (论文中未明确说明所属机构) 通讯作者：论文中未明确说明作者列表：AmirHossein Naghi Razlighi (未说明)、Aryan Mikaeili (未说明)、Ali Mahdavi-Amiri (未说明)、Daniel Cohen-Or (未说明)、Yiorgos Chrysanthou (未说明) 💡 毒舌点评亮点：论文精准定位了视频生成模型在“运动编辑”上的普遍短板，并提出了一个动机清晰、框架轻量（免训练）的测试时调优解决方案。其核心洞察在于联合利用音频和文本条件作为控制轴，这一多模态视角颇具启发性。短板：方法严重依赖一个未公开的、特定的“音频-视觉视频生成模型”，其通用性存疑；核心监督信号来自一个黑盒VLM，引入了不可控的评估偏差；且当前摘要中完全缺乏定量实验对比，使得任何关于“有效性”或“优越性”的结论都悬而未决，说服力严重不足。 📌 核心摘要问题：现有大型视频生成模型在“运动编辑”方面表现不佳。它们能很好地响应外观变化，但难以根据文本提示在已有视频中产生特定、局部的动作或状态转换。核心方法：提出“Sound Sparks Motion”，一个免训练的测试时调优框架。它通过对一个音频-视觉视频生成模型内部的多模态条件信号进行微调来实现运动编辑。具体是调优两个轻量变量：一个从源视频派生的音频潜在表示，以及文本条件的一个残差扰动。新颖之处：与修改模型权重的微调或仅依赖文本提示的方法不同，该方法通过联合调优音频和文本条件信号（特别是音频通路），挖掘模型中潜在的、难以通过纯文本控制的运动控制能力。实验结果：论文摘要未提供任何定量实验结果数值。关键结论基于定性观察和消融分析：单独调优音频或文本效果不佳，组合是必要的；学习到的调优变量具有跨视频迁移的潜力。实际意义：为视频内容创作者提供了一种新的、基于音频线索的细粒度运动编辑工具。更重要的是，提出了一种通过测试时调优来“探针”和释放预训练多模态模型隐藏能力的范式。主要局限：方法效果受限于底层音频-视觉生成模型的质量和多模态条件结构。评估依赖于另一个预训练的VLM，其准确性无法保证。计算成本（每个视频需要调优）和泛化到其他视频编辑任务的能力有待验证。 🔗 开源详情代码：论文摘要提及代码可通过项目页面获取，但未给出具体链接。模型权重：论文中未提及。数据集：论文中未提及。 Demo：论文中未提及。复现材料：论文摘要提及代码和数据可通过项目主页获取：https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/ 论文中引用的开源项目：未提及。 🏗️ 方法概述和架构整体流程概述：这是一个免训练的测试时调优（Test-Time Tuning）框架。输入是需要编辑的源视频、描述期望运动的文本提示，以及一个预训练的音频-视觉视频生成模型。核心处理过程是通过一个基于VLM反馈的优化环路，对模型的音频条件和文本条件进行轻微调整。输出是运动被编辑后的视频。 ...

语音/音频论文速递 2026-05-18

语音/音频论文速递 2026-05-18 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 2篇 ██ #音频分类 2篇 ██ #音频修复 1篇 █ #语音识别 #说话人分离 1篇 █ #语音翻译 1篇 █ #语音识别 1篇 █ #生理信号预测 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenize 8.1分前25% #音乐生成 🥈 Scalable neuromorphic computing from autonomous spiking 7.8分前25% #音频分类 🥉 Real-time Speech Restoration using Data Prediction Mean 7.5分前25% #音频修复 4. Mind the Gap: Impact of Synthetic Conversational Data o 7.2分前25% #语音识别 #说话人分离 5. From Flat Language Labels to Typological Priors: Struct 6.9分前50% #语音翻译 6. Beyond Content: A Comprehensive Speech Toxicity Dataset 6.5分前25% #音频分类 7. ARIA: A Diagnostic Framework for Music Training Data At 6.1分前25% #音乐生成 8. Improving Automatic Speech Recognition for Speakers Tre 6.0分前50% #语音识别 9. Toward World Modeling of Physiological Signals with Cha 6.0分前50% #生理信号预测 10. Can Large Language Models Imitate Human Speech for Clin 6.0分前50% #语音生物标志物 11. Can We Trust AI-Inferred User States. A Psychometric Fr 6.0分前50% #模型评估 12. Sound Sparks Motion: Audio and Text Tuning for Video Ed 5.5分前25% #视频编辑 13. Perforated Neural Networks for Keyword Spotting 5.0分前60% #关键词检测 📋 论文列表 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv ...

AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

📄 AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting #音视频分割 #对比学习 #特征金字塔 #多模态模型 ✅ 7.2/10 | 前25% | #音视频分割 | #多模态模型 | #对比学习 #特征金字塔 | arxiv 学术质量 6/8 | 影响力 0.6/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Yuyuan Liu (论文完成时为澳大利亚阿德莱德大学博士生，现署名牛津大学工程科学系) 通讯作者：Yu Tian (中佛罗里达大学) 作者列表：Yuyuan Liu (牛津大学工程科学系 / 澳大利亚阿德莱德大学人工智能研究所)、Yuanhong Chen (澳大利亚阿德莱德大学人工智能研究所)、Chong Wang (斯坦福大学)、Junlin Han (牛津大学工程科学系)、Junde Wu (牛津大学工程科学系)、Can Peng (牛津大学工程科学系)、Jingkun Chen (牛津大学工程科学系)、Yu Tian (中佛罗里达大学)、Gustavo Carneiro (萨里大学) 💡 毒舌点评亮点：论文提出了一个工程上非常精巧的设计——AuralFuser外部模块。它在不修改冻结SAM2骨干网络参数的前提下，通过构建特征金字塔实现了多尺度、深层次的跨模态融合，并生成了稀疏和密集两种特征级提示。这种“提示”而非“适配”的范式，巧妙地平衡了性能提升与保持基础模型泛化能力，且在与人工提示结合的场景下展现了显著的效率优势。AudioCon对比学习策略也针对性地解决了音频-视觉学习中固有的模态数量不平衡问题。短板：然而，论文的理论深度有限。其核心方法更侧重于一种有效的架构集成，而非对音频-视觉分割本质问题的理论突破。对关键组件（如Stepping-Stone [42]）的依赖性，暴露了其端到端闭环的不足。此外，对AudioCon等设计选择的消融分析可以更深入，例如不同尺度特征对齐的差异性探讨、负样本构建策略的权衡等。整体而言，这是一篇扎实、有效的系统性工作，但创新高度和理论贡献未达到顶级理论会议的顶尖水准。 ...

ViMU: Benchmarking Video Metaphorical Understanding

📄 ViMU: Benchmarking Video Metaphorical Understanding #基准测试 #多模态模型 #视频理解 #模型评估 🔥 8.1/10 | 未提及 | #基准测试 | #模型评估 | #多模态模型 #视频理解 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Qi Li（新加坡国立大学）通讯作者：Xinchao Wang（新加坡国立大学）作者列表：Qi Li（新加坡国立大学）、Xinchao Wang（新加坡国立大学） 💡 毒舌点评该论文精准地瞄准了多模态视频理解领域的一个高阶评估空白——对“潜台词”和“社会隐喻”的系统性理解。其提出的ViMU基准设计精巧，覆盖全面，任务定义（尤其是强制无提示）具有启发性。然而，作为一项评估工作，其核心贡献是提供了一个“考卷”，而非解决该问题的“答案”。基准构建高度依赖前沿闭源模型（GPT-5.4）进行核心生成与验证，这既引发了关于其自身偏差和“原创性”的疑问，也使得完全复现其构建过程变得困难。实验分析虽然深入，但主要揭示了现有模型的不足，缺乏对基准本身局限性的充分量化验证。 📌 核心摘要解决的问题：现有视频理解模型主要关注字面视觉内容，缺乏对视频中隐含的隐喻、讽刺、社会意义等“潜台词”进行系统性理解与评估的能力。这是一个重要的研究缺口。方法核心：提出了ViMU（视频隐喻理解）基准，包含588个视频和2352个问题，覆盖四大任务：开放解释（OE）、证据定位（EG）、修辞机制识别（RM）和社会价值信号识别（SV）。基准构建采用多阶段、迭代优化的流水线，结合前沿LLM（GPT-5.4）生成与人工专家审核。与已有方法相比的新颖性：不同于聚焦于隐含物理关系或单一现象（如幽默）的现有基准，ViMU专注于社会文化语境下的广义“潜台词”理解，并强制采用“无提示”（hint-free）的评估方式，要求模型在不被告知具体线索的情况下进行推断。主要实验结果：对16个前沿多模态大模型（MLLMMs）的评估显示，即便是最强的闭源模型，其整体平均性能也低于50%。这暴露了模型在从字面感知到深层含义推断上的巨大差距。具体结果见下表。模型日期 OE (%) EG (%) RM (%) SV (%) SSU-Avg (%) All-Avg (%) 开源模型 Ministral-8B 2024-10 48.25 48.60 31.87 10.45 21.16 34.79 Ministral-14B 2025-12 52.19 55.73 27.29 6.57 16.93 35.45 Gemma-3-4B-it 2025-03 39.43 25.41 21.10 7.17 14.13 23.28 Gemma-3-27B-it 2025-03 55.90 49.38 32.47 7.95 20.21 36.43 Qwen3-VL-32B-Instruct 2025-10 64.09 59.64 27.65 15.17 21.41 41.64 Qwen3.5-27B 2026-02 62.80 60.28 38.18 22.40 30.29 45.91 闭源/API模型 Claude-3-Haiku 2024-03 50.41 34.55 2.99 3.64 3.32 22.90 GLM-4.5v 2025-08 62.52 23.11 8.87 9.26 9.06 25.94 Grok-4.1-Fast 2025-09 57.62 63.84 34.91 28.73 31.82 46.28 Gemini-3-Flash-Preview 2025-12 62.54 52.80 33.63 28.26 30.94 44.31 Mimo-V2-Omni 2026-03 64.07 48.94 21.04 18.52 19.78 38.14 Seed-2.0-Lite 2026-03 60.84 66.16 18.75 16.73 17.74 40.62 o4-mini 2025-04 65.27 59.63 33.21 29.51 31.36 46.91 GPT-4.1-nano 2025-04 50.12 22.31 2.32 9.02 5.67 20.94 GPT-5.2 2025-12 73.15 67.83 16.55 21.15 18.85 44.67 GPT-5.4-mini 2026-03 66.19 64.45 4.17 11.77 7.97 36.64 精细分析表明：1）模型普遍倾向于预测更通用、安全的类别，而低估更隐晦的社会编码类别；2）在传统视频理解任务上表现优异的模型，在隐喻理解上不一定领先。 ...