多模态模型

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

📄 Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs #对抗样本 #多模态模型 #模型评估 #预训练 ✅ 6.5/10 | #对抗样本 #多模态模型 | arxiv 👥 作者与机构第一作者：Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University) 通讯作者：未说明作者列表：Hao Wang (Magellan Technology Research Institute (MTRI), Waseda University)、Yiqun Sun (Magellan Technology Research Institute (MTRI))、Pengfei Wei (Magellan Technology Research Institute (MTRI))、Lawrence B. Hsieh (Magellan Technology Research Institute (MTRI))、Daisuke Kawahara (Waseda University) 💡 毒舌点评亮点在于提出了一种简洁、即插即用的VLM对抗防御框架，通过SAE的重建目标隐式学习攻击特征的思路有一定启发性，且实验设计（跨域、跨攻击设置）较为全面。短板在于核心insight“重建目标能隐式捕捉攻击信号”的理论解释或可视化证据不足，更像是一个经验性发现；此外，与最前沿的VLM攻击防御方法对比不足，部分实验（如只用SSA-CWA生成攻击特征）可能限制了结论的普适性。 📌 核心摘要解决的问题：视觉-语言模型（VLMs）在面对对抗性攻击时极其脆弱，现有检测方法缺乏对最新、最强攻击的评估，且在跨域、跨攻击等现实场景下鲁棒性不足。方法核心：提出SAEgis，一种基于稀疏自编码器（SAE）的即插即用检测框架。将SAE插入预训练VLM（如Qwen2.5-VL）的视觉编码器或投影层，仅用重建目标训练。利用少量对抗样本，通过计算每个稀疏特征的“攻击得分”来选出“攻击相关特征”。在推理时，计算输入图像触发的攻击相关特征数量，若超过基于干净数据校准的阈值，则判定为对抗样本。与已有方法相比新在哪里：首次将SAE作为即插即用模块用于VLM对抗检测，无需对抗训练。方法基于特征激活模式而非重建误差或额外分类器，设计更轻量、通用。通过多层SAE信号集成，有效融合了低级纹理和高级语义中的攻击特征。主要实验结果：在NIPS17、LLaVA、Medical三个数据集上，针对SSA-CWA、M-Attack、FOA-Attack三种攻击进行评估。SAEgis（集成版）在跨域设置下平均F1达到94.4%，显著优于Dense (Ensemble) 的82.2%和PIP的79.4%。在跨攻击设置下，单层SAE（vision-block0）也能保持较高F1（~89.7%），但集成后性能更稳定（F1 >93%）。实际意义：为提升现实世界VLM部署的安全性提供了一个轻量、实用且易于集成的防御组件，尤其在域偏移和未知攻击下表现出良好鲁棒性。主要局限性：攻击相关特征的“攻击得分”计算基于简单均值差，对分布漂移敏感；阈值校准仅依赖干净数据，在跨域测试时可能导致性能下降（如图5所示的失败案例）；方法评估仅限于“描述图像”这一任务，对VLM其他功能的泛化性未知。 🔗 开源详情代码：https://github.com/conan1024hao/SAEgis 模型权重：论文中未提及具体的模型权重链接。论文指出将使用 Qwen2.5-VL-3B-Instruct (Bai et al., 2025b) 作为骨干VLM，并将在论文发表后释放所有预训练的SAE权重 (“All pretrained SAE weights will be released upon publication”)。数据集：论文中使用了以下数据集，但未提供直接的下载链接。数据集获取方式需参考原始论文或官方发布渠道。 NIPS17 (K et al., 2017) - 自然图像数据集。 LLaVA-Instruct-150K (Liu et al., 2023) - 自然图像数据集。 Medical Multimodal Evaluation Data (Chen et al., 2024b) - 医学图像数据集，用于域外评估。 FineVision (Wiedmann et al., 2025) - 用于预训练SAE模块。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及具体的训练脚本、配置文件或预训练检查点链接。但论文详细描述了实现细节（第4.2节），包括：骨干模型：Qwen2.5-VL-3B-Instruct。 SAE训练数据：使用 FineVision 数据集，训练500k样本。 SAE超参数：批大小16，学习率5e-5，潜在维度32768，稀疏度Top-K=64。实验超参数：选择Top-K=256个攻击相关特征，检测阈值由干净验证集上假阳性率α=0.02确定。具体层位置：实验确定了 vision-block0， vision-block10 和 projection-mlp2 是最佳SAE插入点。论文中引用的开源项目：论文中引用了以下开源项目/工具，但未在正文中提供其官方链接（链接仅存在于参考文献列表中，未在此列出）： VLM模型：CLIP (Radford et al., 2021)， BLIP (Li et al., 2022)， MiniGPT-4 (Zhu et al., 2023)， Qwen2.5-VL-3B-Instruct (Bai et al., 2025b)。扩散模型：Stable Diffusion (Rombach et al., 2022)，用于MirrorCheck方法。数据集：LAION-400M (Schuhmann et al., 2021)，用于AnyAttack方法训练。攻击方法：SSA-CWA (Dong et al., 2023)， AttackVLM (Zhao et al., 2023)， AdvDiffVLM (Guo et al., 2024)， AnyAttack (Zhang et al., 2025)， M-Attack (未完整引用)， FOA-Attack (Jia et al., 2025)。检测方法：MirrorCheck (Fares et al., 2024)， PIP (Zhang et al., 2024)， HiddenDetect (Jiang et al., 2025b)， PromptGuard (Zhou et al., 2026)。其他：SVM (Cortes and Vapnik, 1995)，用于PIP方法。 🏗️ 方法概述和架构整体流程概述：SAEgis是一个两阶段的即插即用防御框架。第一阶段是特征选择阶段，在已知攻击类型的数据上，训练一个SAE模块并识别出与攻击最相关的稀疏特征；第二阶段是检测推理阶段，在部署时，通过监控这些攻击相关特征的激活数量来实时判断输入图像是否为对抗样本。整个系统无需修改原VLM的参数，仅在选定层旁插入一个SAE模块。 ...

语音/音频论文速递 2026-05-11

语音/音频论文速递 2026-05-11 共分析 12 篇论文 ⚡ 今日概览 📥 抓取 12 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 1篇 █ #跨模态 1篇 █ #语音匿名化 1篇 █ #音频水印 1篇 █ #语音对话系统 1篇 █ #说话人识别 1篇 █ #脑机接口 1篇 █ #生物声学 1篇 █ 📊 论文评分排行榜（12 篇，按分数降序）排名论文评分分档主任务 🥇 Do Joint Audio-Video Generation Models Understand Physi 7.5分前50%(Accept级) #基准测试 🥈 Anisotropic Modality Align 7.5分前25%(Strong Accept级) #跨模态 🥉 Evaluating voice anonymisation using similarity rank di 7.0分前50%(Accept级) #语音匿名化 4. Asymmetric Phase Coding Audio Watermarking 7.0分前50%(Accept级) #音频水印 5. MIST: Multimodal Interactive Speech-based Tool-calling 7.0分前50%(Accept级) #语音对话系统 6. TARNet: A Temporal-Aware Multi-Scale Architecture for C 7.0分前25%(Strong Accept级) #说话人识别 7. Zero-Shot Imagined Speech Decoding via Imagined-to-List 6.5分前25%(Strong Accept级) #脑机接口 8. BeeVe: Unsupervised Acoustic State Discovery in Honey B 6.5分前50%(Accept级) #生物声学 9. A Decomposed Retrieval-Edit-Rerank Framework for Chord 6.5分前50%(Accept级) #音乐生成 10. Adaptive Regularization for Sparsity Control in Bregman 6.5分后50%(Reject级) #说话人验证 11. Sparse Autoencoders as Plug-and-Play Firewalls for Adve 6.5分前50%(Accept级) #对抗样本 12. Dependence on Early and Late Reverberation of Single-Ch 6.0分后50%(Reject级) #说话人距离估计 📋 论文列表 🥇 Do Joint Audio-Video Generation Models Understand Physics? ✅ 7.5/10 | 前50%(Accept级) | #基准测试 | #模型评估 | #音视频 #跨模态 | arxiv ...

Audio-Visual Intelligence in Large Foundation Models

📄 Audio-Visual Intelligence in Large Foundation Models #多模态模型 #跨模态 #预训练 #生成模型 #音视频 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：You Qin（未说明）， Kai Liu（未说明）， Shengqiong Wu（未说明）， Kai Wang（未说明）， Shijian Deng（未说明）， Yapeng Tian（未说明）， Junbin Xiao（未说明）， Yazhou Xing（未说明）， Yinghao Ma（未说明）， Bobo Li（未说明）， Roger Zimmermann（未说明）， Lei Cui（未说明）， Furu Wei（未说明）， Jiebo Luo（未说明）， Hao Fei（未说明） 💡 毒舌点评这是一篇雄心勃勃的综述，旨在为快速发展的音视频智能领域建立一个以大型基础模型为核心的统一分类体系和全景图，其系统性整合工作价值显著。然而，作为一篇理论框架性的综述，它本质上是领域地图的绘制，而非对具体技术难题的攻坚，因此对于寻求具体技术实现或实验验证细节的读者，其直接指导意义有限。 ...

X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction

📄 X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction #多模态模型 #移动代理 #边缘计算 #多模态感知 #行为克隆 #记忆系统 ✅ 6.5/10 | 前50% | #移动代理 | #多模态模型 | #边缘计算 #多模态感知 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构通讯作者：Yanhao Zhang†, Haonan Lu* （† Project Leader ∗ Corresponding Author）作者列表：Xiaoming Ren, Ru Zhen, Chao Li, Yang Song, Qiuxia Hou, Yanhao Zhang, Peng Liu, Qi Qi, Quanlong Zheng, Qi Wu, Zhenyi Liao, Binqiang Pan, Haobo Ji, Haonan Lu 机构：所有作者均隶属于 OPPO AI Center, Multi-X Team 💡 毒舌点评亮点：论文清晰勾勒了一个面向真实Android设备的“边缘原生”全栈代理框架，其对多模态输入的统一处理、结合本地数据的长期记忆构建，以及通过行为克隆实现导航技能复用的工程化设计，体现了对移动端交互复杂性的深刻理解和实用价值。短板：通篇更像一份详尽的架构设计文档或产品技术白皮书，而非旨在验证科学假设的研究论文。它完全缺乏定量的性能对比实验（如与基线方法的成功率、效率对比）、消融实验以及模型训练细节，使得其各项设计的优越性无法被客观评估，说服力主要依赖于功能演示。 ...

语音/音频论文速递 2026-05-09

语音/音频论文速递 2026-05-09 共分析 3 篇论文 ⚡ 今日概览 📥 抓取 3 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #跨模态 1篇 █ #音频生成 1篇 █ #移动代理 1篇 █ 📊 论文评分排行榜（3 篇，按分数降序）排名论文评分分档主任务 🥇 Audio-Visual Intelligence in Large Foundation Models 8.0分前25% #跨模态 🥈 PersonaGesture: Single-Reference Co-Speech Gesture Pers 7.0分前25% #音频生成 🥉 X-OmniClaw Technical Report: A Unified Mobile Agent for 6.5分前50% #移动代理 📋 论文列表 🥇 Audio-Visual Intelligence in Large Foundation Models 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv ...

Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

📄 Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition #语音情感识别 #多模态模型 #对比学习 #知识蒸馏 #缺失模态处理 🔥 8.0/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yan Zhuang（电子科技大学）通讯作者：Jiawen Deng（电子科技大学），Fuji Ren（电子科技大学、深圳先进技术研究院）作者列表：Yan Zhuang（电子科技大学）、Minhao Liu（电子科技大学，深圳先进技术研究院）、Yanru Zhang（电子科技大学，深圳先进技术研究院）、Jiawen Deng（电子科技大学）、Fuji Ren（电子科技大学，深圳先进技术研究院） 💡 毒舌点评论文的亮点在于将“模态缺失”问题转化为“表示一致性”问题，并设计了优雅的对比学习机制（MCB-CL）来显式地对齐“相同语义、相同模态组合”的样本，直击现有方法痛点。然而，论文声称解决了“跨模态组合不一致”（如图1b），但SUGR模块主要处理的是“预测不确定性”，通过不确定性差异动态调整损失权重，其作用是让模型更关注那些因缺失导致预测变差的样本，而非在表示空间中直接约束同一语义在不同模态组合下的对齐，这部分论证略显间接；此外，方法高度依赖教师模型，在教师本身存在语言偏见时，学生模型的“鲁棒性”可能部分源于对偏见的抑制（如附录A.5.8所示），而非纯粹的多模态融合能力提升。 📌 核心摘要要解决什么问题：多模态情感识别（MER）在实际场景中面临模态缺失与异构性问题，导致同一情感语义在不同可用模态组合下产生表示不一致和预测不稳定（图1展示了组内与跨组不一致现象）。方法核心是什么：提出了MCUR框架，它是一个基于知识蒸馏的两阶段端到端框架。其核心包含两个模块：（1）模态组合与类别联合对比学习（MCB-CL），通过贝叶斯分解引入对比损失，鼓励相同情感类别且相同模态组合的样本在表示空间中聚集；（2）样本级不确定性引导正则化（SUGR），通过计算教师与学生模型预测的不确定性差异，动态调整任务损失和蒸馏损失的权重，使模型更关注不确定性高的样本。与已有方法相比新在哪里：不同于以往侧重模态重建或笼统知识蒸馏的方法，MCUR将问题聚焦于表示空间结构的约束。MCB-CL显式地将模态组合（c_i）信息引入对比学习目标，实现了更细粒度的监督；SUGR则利用不确定性差异进行自适应样本加权，而非对所有缺失场景一视同仁。主要实验结果如何：在MOSI、MOSEI、IEMOCAP三个基准数据集上，MCUR在14种模态缺失场景（7种固定缺失，7种随机缺失）的平均性能均优于基线方法。平均F1分数提升显著：在MOSI上提升2.2%，MOSEI上提升2.67%，IEMOCAP上提升4.37%。消融实验表明，移除MCB-CL或SUGR模块中的不确定性项会导致平均ACC和F1下降超过1个点。不确定性分析（图3）显示，加入MCB-CL能有效降低预测的Brier分数和NLL，尤其在模态表征较弱的场景下（如仅V、A输入）。实际意义是什么：该工作提升了MER系统在模态部分缺失或不可靠时的鲁棒性和预测稳定性，使其更适用于真实世界的动态、异构环境（如用户设备差异、传感器临时失效）。主要局限性是什么：实验基于对缺失模态的模拟（随机丢弃），可能与真实世界中模态降质或丢失的复杂性存在差距；方法依赖一个预先训练好的教师模型，增加了训练成本和部署复杂度；在极端缺失（高缺失率）或噪声与缺失并存的场景下，鲁棒性有待进一步验证（论文在附录A.5.6中进行了初步验证）。 🔗 开源详情代码：论文中未提及代码链接（论文中多次提到“使用官方实现”或“重新实现”其他方法，但未提供作者自己方法“MCUR”的代码仓库地址）。模型权重：论文中未提及（未提供预训练模型或检查点的下载链接）。数据集：论文中使用了三个公开的多模态情感识别数据集，但未提供具体获取链接。论文中提及的数据集名称及通常获取方式如下： MOSI 数据集：常通过 CMU-Multimodal SDK 获取。 MOSEI 数据集：常通过 CMU-Multimodal SDK 获取。 IEMOCAP 数据集：需通过其官网 USC IEMOCAP 申请获取。 Demo：论文中未提及。复现材料：论文在附录 A.2 “Additional Implementation Details” 中提供了详细的复现信息，包括：训练配置：使用了 AdamW 和 Adam 优化器，详细的学习率、随机种子、超参数搜索范围等。模型结构：提供了教师模型（Figure 4）和 MCUR 框架（Figure 2）的结构图。训练策略：描述了教师模型的预训练方法、学生模型的训练损失函数以及模拟模态缺失的方法。基线复现细节：说明了如何公平复现所有对比方法。额外分析：提供了训练损失收敛分析（Figure 5）和表示可视化（Figure 6）。论文中引用的开源项目： BERT：论文中使用了预训练的 BERT 嵌入处理语言模态。链接：https://github.com/google-research/bert Facet toolkit：用于提取视频（人脸）特征。论文中未提供链接（通常指 iMotions 公司的 Facet 模块，需商业授权）。 COVAREP toolkit：用于提取音频特征。链接：http://covarep.github.io/covarep/ Perceiver：论文中使用的 Perceiver 编码器的实现参考了以下链接（论文中列出了编号[13, 22, 41, 45]，对应不同的Perceiver变体实现）。通用实现可参考：https://github.com/lucidrains/perceiver-pytorch Variational Information Bottleneck (VIB)：模型中使用的关键组件。论文中列出了参考文献[1, 8, 16, 29, 36]，其中[8]的原始实现可参考：https://github.com/HIPS/neural-tangents (VIB的原始论文作者之一)。 Decoupled Knowledge Distillation (DKD)：SUGR模块中用于分类任务的知识蒸馏方法。链接：https://github.com/megvii-research/mdistiller (包含了DKD的实现)。基线方法：论文对比了以下方法的官方或公开实现（论文中提到使用了“官方实现”）： CorrKD：论文中提到官方代码未公开，作者根据论文描述重新实现。 MMANet：论文中提到了官方实现，但未给出具体链接。通常可能在：https://github.com/DAMO-NLP-SG/MMANet (此为推测，论文未明确给出)。 MPLMM、IMDer、LNLN：论文中提及了这些方法，但未提供其官方代码链接。其他依赖：论文在实现细节中提到了 PyTorch 和 CUDA 11.5。链接：https://github.com/pytorch/pytorch。 🏗️ 方法概述和架构 MCUR是一个基于知识蒸馏（KD）的两阶段端到端框架，旨在训练一个对模态缺失鲁棒的学生模型。整体流程为：首先，使用完整模态数据训练一个教师模型；然后，在训练学生模型时，模拟各种模态缺失场景，并通过MCB-CL和SUGR两个核心模块，引导学生学习与教师一致且对缺失鲁棒的表示。 ...

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

📄 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions #音频质量评估 #大语言模型 #多模态模型 #零样本 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Leying Zhang（上海交通大学计算机科学与技术学院，听觉认知与计算声学实验室，AI研究院）通讯作者：Yanmin Qian（上海交通大学计算机科学与技术学院，听觉认知与计算声学实验室，AI研究院）作者列表： Leying Zhang（上海交通大学） Bowen Shi（独立研究者，美国） Haibin Wu（独立研究者，美国） Bach Viet Do（独立研究者，美国） Yanmin Qian（上海交通大学） 💡 毒舌点评这篇论文把“指令跟随”从聊天机器人玩出了新花样，成功让一个3B参数的LLM学会了听声辨器，成为一个跨领域的全能“音频考官”，实验结果全面碾压了各种老牌打分模型和通用多模态大模型，实用性拉满。不过，它的“超能力”似乎建立在对训练数据分布的高度适应上，一旦遇到像语速评估这种对时序动态要求苛刻的任务，就立马“打回原形”，暴露了当前LLM在细粒度音频感知上的本质短板。 📌 核心摘要要解决的问题：随着生成式音频模型的快速发展，现有评估方法（传统客观指标或通用多模态大模型）在领域泛化能力、零样本任务适应性和指令灵活性上存在严重瓶颈。一个模型往往只能用于特定任务或评估维度。方法核心：提出JASTIN框架，将音频评估重新定义为指令驱动的自回归推理任务。其核心架构是冻结的预训练音频编码器（PE-A-Frame-base）+ 轻量级可训练音频适配器 + 微调的大语言模型（Llama-3.2-3B）。通过交错的对话模板输入，将自然语言评估指令与音频特征一起输入LLM，直接生成数值评分。与已有方法相比新在哪里：统一泛化：单个模型可零样本处理语音、音乐、音效等24种评估任务，无需任务特定重训练。创新的数据准备管道：采用多源（人工标注、伪标签、代理任务数据）、多任务、多校准（动态评分范围、语义反转）、多描述（LLM驱动重述）的异构数据增强策略，极大提升了模型对指令和评估标准的理解与鲁棒性。指令鲁棒性与人类中心对齐：模型能灵活适应评分规则和标定的变化，同时对同义指令保持稳定输出，其预测结果与人类主观评分的相关性达到了新的SOTA水平。主要实验结果�� 在QualiSpeech和SpeechEval两个语音数据集上，JASTIN在几乎所有指标上的皮尔逊(PCC)和斯皮尔曼(SRCC)相关系数均超过所有对比基线（包括专用评估模型、通用MLLM和传统指标）。例如，在QualiSpeech的失真(Dist.)指标上，JASTIN的PCC达到0.561，而第二好的专用模型QualiSpeech仅为0.518。在跨领域AES数据集（语音、音效、音乐）上，JASTIN性能与专用的AES模型相当或更优，例如在语音质量(PQ)指标上PCC达0.707（AES模型为0.730），在音乐内容享受度(CE)上PCC达0.749（超过AES的0.748）。在域外(OOD)任务（音乐文本对齐、整体音乐质量、合成语音MOS、ASMR语音MOS）上，JASTIN显著超越所有通用大模型（如Gemini-3-Pro, Qwen3-Omni），证明了其出色的零样本泛化能力。例如，在音乐文本对齐(M-TA)任务上，JASTIN的PCC为0.487，而Gemini-3-Pro仅为0.175。实际意义：提供了一个通用、灵活、可扩展的自动化音频评估基础框架。研究人员和开发者可以像给人类评估员下指令一样，用自然语言定义评估任务和标准，无需为每个新任务收集数据或训练专用模型，极大降低了音频质量评估的门槛和成本。主要局限性：在时间敏感任务（如语速评估）上表现不佳，相关系数很低，与大多数基线模型一样，揭示了当前LLM架构在精细时序动态感知上的共同弱点。在处理高度专业化或美学驱动的音频领域（如ASMR）时，模型可能因内部语音质量先验知识而产生误判，将高保真的耳语误认为音频伪影。仅支持单音频评分，尚不支持多音频比较或参考音频评估。 🔗 开源详情代码：https://github.com/vivian556123/Jastin 模型权重：音频编码器基础模型：https://huggingface.co/facebook/pe-a-frame-base （论文中引用的第三方预训练模型，非Jastin自训练权重）语言模型骨干：https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct （论文中引用的第三方预训练模型，非Jastin自训练权重） Jastin模型本身的训练权重：论文中未提及下载链接或开源权重。数据集：论文中提及用于训练的多源数据集，但未提供统一的下载包或开源链接。具体数据集名称及来源见下文“论文中引用的开源项目”部分。 Demo：论文中未提及。复现材料：论文中开源了模型设计、推理脚本、数据处理脚本以及所有模板、任务描述和提示。这些材料已包含在上述GitHub代码仓库中。论文中详细说明了训练配置（如使用8个A100 GPU，训练6000步等），但未提供训练好的检查点（checkpoint）。论文中引用的开源项目：模型： PE-A-Frame: https://huggingface.co/facebook/pe-a-frame-base Llama-3.2-3B: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct 数据集（部分提及）： ChildSpeech: https://huggingface.co/datasets/TomRoma/Child_Speech_dataset_Whisper 其他作为数据来源被提及的公开数据集名称：BVCC、QualiSpeech、SpeechEval、UrgentMOS、LibriTTS、Expresso、CommonVoice、EARS、AudioSet、FreeSound、MusicCaps、MUSDB18、LibriSpeech、NCSSD、CHAINs。完整任务列表：在论文的补充材料中提及，链接为 https://github.com/vivian556123/Jastin/blob/main/prompts-and-tasks.html 🏗️ 模型架构 JASTIN的整体架构如图1所示，旨在将连续的音频信号与离散的文本指令在LLM的语义空间中对齐。 ...

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #音频分类 #数据集 #预训练 #领域适应 #多模态模型 ✅ 7.5/10 | 前25% | #音频分类 | #数据集 | #预训练 #领域适应 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yida Xue（浙江大学计算机科学与技术学院；浙江大学软件技术学院）通讯作者：Ningyu Zhang（浙江大学计算机科学与技术学院；浙江大学软件技术学院；海洋感知国家重点实验室）、Guozhou Zheng（舟山海洋研究中心；海洋感知国家重点实验室）作者列表：Yida Xue（浙江大学计算机科学与技术学院，浙江大学软件技术学院），Ningyu Zhang（浙江大学计算机科学与技术学院，浙江大学软件技术学院，海洋感知国家重点实验室），Tingwei Wu（浙江大学计算机科学与技术学院，浙江大学软件技术学院），Zhe Ma（浙江大学计算机科学与技术学院），Daxiong Ji（浙江大学软件技术学院），Zhao Wang（浙江大学软件技术学院），Guozhou Zheng（舟山海洋研究中心，海洋感知国家重点实验室），Huajun Chen（浙江大学计算机科学与技术学院，ZJU-杭州全球科技创新中心，海洋感知国家重点实验室） 💡 毒舌点评亮点：该工作首次系统性地整合了声呐、水下图像、科学图表和文本等多源异构海洋数据，并构建了配套的知识图谱引导的指令数据与评估基准，填补了领域空白，为海洋科学Foundation Model的开发铺平了道路。短板：作为一篇数据集论文，其方法论创新主要体现在工程化的数据处理和整合流程上，缺乏在模型架构或训练范式上的突破；对于如此大规模多模态数据的噪声分布、跨模态对齐的误差分析以及数据偏见等关键问题讨论不足。 📌 核心摘要要解决什么问题：海洋科学领域缺乏大规模、高质量、多模态对齐的数据集，导致通用多模态大模型（MLLMs）在海洋科学任务上应用受限，存在严重的“数据瓶颈”。方法核心是什么：提出OceanPile，一个为海洋基础模型设计的大规模多模态语料库，包含三个核心组件：用于预训练的OceanCorpus（整合文本、声呐、水下图像等多源数据）；用于指令微调的OceanInstruction（基于层次化海洋概念知识图谱生成的指令数据）；以及用于评估的OceanBenchmark（手动标注的基准测试集）。与已有方法相比新在哪里：相比于零散的单一模态海洋数据集（如声呐或图像数据集）或目标单一的海洋大模型（如OceanGPT），OceanPile首次提供了覆盖物理、化学、生物等多学科，整合了声学、视觉、文本等多模态，且经过对齐和质量控制的综合性资源，旨在全面支持海洋科学MLLM的预训练、微调和评估。主要实验结果如何：实验表明，使用OceanInstruction微调的模型在OceanBenchmark上性能显著提升。例如，Qwen3-VL-8B-Instruct的多模态总体得分从13.07提升至32.59（+19.52），超越了GPT-4o（14.35）和GPT-5（9.67），并略优于Gemini-3-Flash（31.21）。具体任务提升显著：海洋物种识别（Marine Organisms VQA）从9.96提升至48.52（+38.56）。关键数据见下表：模型文本基准：海洋科学QA (%) 多模态基准海洋科学VQA (%) 声呐VQA (%) 海洋生物VQA (%) 总体 (%) Qwen3-30B 25.49 - - - - Qwen3-30B (with OceanPile) 26.47 - - - - Qwen3-VL-8B - 21.21 8.04 9.96 13.07 Qwen3-VL-8B (with OceanPile) - 29.29 19.97 48.52 32.59 GPT-5 16.67 19.19 0.71 9.11 9.67 GPT-4o 6.86 16.16 5.71 21.19 14.35 Gemini-3-Flash 24.51 32.32 11.11 50.21 31.21 实际意义是什么：为海洋科学AI研究提供了关键的基础设施（数据集和基准），有望加速海洋环境感知、物种识别、资源勘探等领域的智能化进程，推动领域专用大模型的发展。 ...

To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition

📄 To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition #语音情感识别 #多模态模型 #强化学习 #知识蒸馏 #基准测试 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #强化学习 #知识蒸馏 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）通讯作者：Jia Li（合肥工业大学计算机科学与信息工程学院）作者列表：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）、Qian Chen（合肥工业大学计算机科学与信息工程学院）、Jia Li（合肥工业大学计算机科学与信息工程学院）、Zhenzhen Hu（合肥工业大学计算机科学与信息工程学院）、Jinpeng Hu（合肥工业大学计算机科学与信息工程学院）、Lizi Liao（新加坡管理大学计算与信息系统学院）、Erik Cambria（南洋理工大学计算与数据科学学院；麻省理工学院媒体实验室）、Richang Hong（合肥工业大学计算机科学与信息工程学院） 💡 毒舌点评这篇论文最大的亮点在于它给“多模态融合”这件事安了一个“交通灯”——能调和的（良性冲突）走蒸馏融合通道，调和不了的（严重冲突）就走强化学习选择通道，这个双路径设计思路清晰且有实证支撑，实验也做得相当全面扎实。但短板也很明显：对“严重冲突”的定义依赖启发式规则（单模态极性与多模态标签不一致），这在实际无标注场景下难以直接应用；此外，ADA的奖励函数设计相对朴素，可能无法完美捕捉“选择可靠性”的微妙之处。 📌 核心摘要问题：多模态情感识别（MER）中，传统融合方法在模态间存在冲突（如讽刺时文本与表情矛盾）时会失效，甚至不如单模态模型。核心方法：提出双路径冲突解决框架（DCR）。路径I（AFD）通过反向知识蒸馏，将音视频模态的时序情感线索融入文本表征，用于处理可调和的“良性冲突”。路径II（ADA）将路径选择建模为上下文赌博机问题，通过强化学习在融合结果和各单模态预测中做出决策，用于处理不可调和的“严重冲突”。创新之处：首次系统性地将模态冲突按“可解性”分类（良性/严重），并设计了针对性的“软校准”（AFD）与“硬裁决”（ADA）的协同处理机制，区别于以往单一的融合或丢弃策略。主要实验结果：在MELD、IEMOCAP、CMU-MOSEI、CH-SIMS和CH-SIMS v2五个基准上，DCR均取得SOTA或极具竞争力的性能。例如，在MELD上WF1达到68.84%，优于TelME（67.37%）；在CH-SIMS v2上MAE达到0.290，优于MulT（0.291）。在CH-SIMS的冲突子集上，DCR在良性冲突子集准确率达72.4%，严重冲突子集达50.3%，显著优于基线（TelME分别为61.8%，41.5%）。实际意义：为构建更鲁棒、可解释的多模态情感识别系统提供了新范式，尤其在对话、人机交互等易出现情感信号矛盾的场景中具有应用潜力。主要局限：冲突的启发式分类方法可能不完美；ADA的策略优化可能受有限动作空间和奖励设计约束；框架增加了模型复杂度。 🔗 开源详情代码：https://github.com/MSA-LMC/DCR 模型权重：论文中未提及具体的模型权重托管平台（如 HuggingFace、ModelScope）链接。论文仅在摘要中提到“Source code and models will be released at https://github.com/MSA-LMC/DCR”，表明模型权重将随代码一同发布。数据集：论文中未提及各数据集的具体获取链接或开源协议。论文仅描述了五个使用的数据集：MELD、IEMOCAP、CMU-MOSEI、CH-SIMS 和 CH-SIMS v2。 Demo：论文中未提及在线演示链接。复现材料：论文中提及了实现细节，包括：使用 PyTorch 实现。训练于单块 NVIDIA RTX 4090 GPU。使用预训练模型作为特征提取器：RoBERTa-large (文本), Whisper-large-v3 (音频), CLIP-ViT-B/16 (视觉)。报告了随机种子（从 {41, 42, 43, 44, 45} 中选择）、学习率 (1e-4)、批大小 (32) 等超参数设置。提供了具体的数据增强策略参数（如模态丢弃概率 p1=0.2, p2=0.05, 高斯噪声 σ=0.01）。论文中未提供独立的配置文件、检查点或详细的复现指南链接。论文中引用的开源项目：论文引用了多个开源项目作为基线或组件，但未提供所有项目的具体链接。以下为论文中明确提及名称的开源相关项目（按章节顺序）：模型/基线方法：大部分作为参考文献引用，论文正文中未提供其 GitHub 链接。例如：MMML, TelME, FacialMMT, DialogueCRN, DialogueRNN, SACL-LSTM, MulT, PMR, Self-MM, UniMSE, SDT, RMER-DT, ECERC, GraphCFC, MMGCN, DialogueGCN, Joyful, LMF, DashFusion, HFR-AME, MAG-BERT, MFON, ConKI, CLGSI, KEBR, BC-LSTM, EmoCaps, BiosERC, InstructERC, DialogueMMT。预训练模型：作为特征提取器使用，论文中提到了其名称但未提供开源链接。例如：RoBERTa-large, Whisper-large-v3, CLIP-ViT-B/16。技术/方法：作为论文中使用的方法被引用。例如：Grad-CAM [60], A2C (优势演员-评论家算法) [33], CMAB (上下文多臂老虎机) [16]。 🏗️ 模型架构图3展示了DCR框架的整体架构，它是一个包含两条互补路径的串行-并行结构： ...

语音/音频论文速递 2026-05-07

语音/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文评分分档主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...