多模态模型

语音/音频论文速递 2026-05-06

语音/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 Towards Open World Sound Event Detection 8.5分前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios

📄 BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios #基准测试 #模型评估 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #音视频 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Advait Tilak（未说明）通讯作者：未说明作者列表：Advait Tilak（未说明）、Jiwon Choi（未说明）、Nazifa Mouli（未说明）、Wei Le（未说明） 💡 毒舌点评亮点：BRITE基准的核心设计非常“聪明”，它通过“不可能场景”和细粒度问答，像给T2V模型做“压力测试”和“CT扫描”，能精准定位模型是“记不住动作”还是“对不上音画”，这比单纯看生成视频“像不像”深刻得多。短板：然而，这个“CT扫描仪”本身有点贵——整个评估依赖大量人工标注，导致基准规模受限（每个模型仅100个提示），其结论的统计显著性和泛化能力可能会被质疑，更像是一个概念验证（Proof-of-Concept）而非可无限扩展的工业标准。 🔗 开源详情代码：https://doi.org/10.6084/m9.figshare.31179547 模型权重：论文中未提及数据集：https://doi.org/10.6084/m9.figshare.31179547 Demo：论文中未提及复现材料：论文中提及的代码、提示词和数据集均发布于上述 figshare 链接。论文附录提供了用于生成提示词和评估问题的 LLM 提示词模板（Meta-Prompt），但未提及模型训练配置或检查点。论文中引用的开源项目：未提及（论文中引用的评估对象为闭源商业模型，如 Sora 2, Veo 3.1, Runway Gen4.5 等；使用的生成工具如 GPT-4, Gemini 2.5 Pro 为闭源商业 API，未提供其开源代码仓库链接）。 📌 核心摘要问题：当前文本到视频（T2V）生成模型的评估基准存在两大盲点：一是主要关注合理场景，无法测试模型在违背常识的“不可能场景”下是否还能忠实于指令；二是绝大多数基准只评估视觉，忽略了对音频及其与视频同步性的评估。方法核心：提出了BRITE，一个集不可能场景提示、多维度（包含音频与音视频同步）原子问题评估、以及人类在环可靠验证于一体的综合T2V评估框架。创新之处：(1) 系统性地将“不可能场景”（社会反转、生物/物理不可能、时间修改）作为核心测试用例；(2) 首次在T2V基准中引入对音频内容和音视频时序同步的细粒度评估；(3) 设计了人类在环协议（从提示筛选、问题生成到最终标注）以规避VLM评估的“循环偏见”，确保可靠性。实验结果：在五个SOTA模型（Sora 2, Veo 3.1等）上评估了500个视频和1364个问题。结果显示，模型普遍在生成静态主体（平均得分0.90）和环境（0.94）上表现良好，但在动态动作绑定（0.59）、音频正确性（0.61）和音视频同步（0.47）上显著退化。其中，时间修改类场景最具挑战性（平均分0.65）。关键数据见下表：模型总体得分主体动作环境音频音视频同步 Runway Gen4.5 0.84 0.93 0.61 0.96 N/A N/A Sora 2 0.77 0.94 0.65 0.95 0.76 0.55 Veo 3.1 0.76 0.92 0.58 0.97 0.69 0.63 Qwen3MAX 0.69 0.90 0.56 0.90 0.63 0.41 PixVerse 5.5 0.59 0.82 0.55 0.88 0.37 0.31 平均 0.73 0.90 0.59 0.94 0.61 0.47 上图(a)显示了模型在“不可能场景”上的整体及分维度表现；下图(b)展示了在四类不同不可能提示上的推理性能。关键结论：Runway Gen4.5综合表现最佳，但所有模型在“时间修改”上均表现不佳，且主体-动作性能差距显著。 ...

Delayed Commitment for Representation Readiness in Stage-wise Audio-Visual Learning

📄 Delayed Commitment for Representation Readiness in Stage-wise Audio-Visual Learning #音视频 #多模态模型 #语音分离 #语音识别 #音频事件检测 ✅ 7.5/10 | 前25% | #音视频 | #多模态模型 | #语音分离 #语音识别 | arxiv 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xinmeng Xu（岭南大学人工智能系）通讯作者：Haoran Xie（岭南大学人工智能系）作者列表： Xinmeng Xu（岭南大学人工智能系） Haoran Xie（岭南大学人工智能系） S. Joe Qin（岭南大学人工智能系） Lin Li（武汉理工大学计算机与人工智能学院） Xiaohui Tao（南昆士兰大学数学、物理与计算学院） Fu Lee Wang（香港都会大学科技学院） 💡 毒舌点评亮点：论文最大的价值在于将音视频融合中“局部匹配好但后续支持不足”的中间状态，形式化为一个可计算、可干预的“准备度缺陷”问题，并设计了一套从诊断到修复的完整框架，这种从“现象描述”到“机理分析”再到“模块化修正”的研究思路非常扎实。短板：方法的核心创新（识别并强化弱支持层）在某些视角下可视为一种特殊的层间注意力或自适应特征精炼，其相对于现有注意力机制的质变提升并不明显；此外，论文对计算开销的讨论较浅，虽然声称是编码器级轻量干预，但增加的支持聚合和门控计算在具体硬件上的实际延迟影响未被充分量化。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中提及并使用了LRS2、LRS3、VoxCeleb2、AVE数据集，但未提供具体的获取链接或开源协议。 Demo：论文中未提及复现材料：论文中提及了训练配置的概要（如使用Adam优化器、NVIDIA H100 GPU训练、早停策略），但未提供具体的配置文件、检查点或详细复现指南。论文中引用的开源项目：论文中引用了多个音频-视觉学习相关的基线方法（如AV-ConvTasNet， VisualVoice， CTC-Net， RTFS-Net， LAVisH， AVMoE等），但未提供这些项目的具体开源仓库链接。补充信息 [模型架构] 补充：原文在 Table IX: Implementation Design Ablations 中详细分析了承诺评估和支持感知瓶颈完成的实现设计选择，该部分内容在已有分析中未被提及。该表格报告了在LRS2数据集不同条件下，针对路由策略（训练与推理时软/硬路由的组合）、评估线索来源（音频/视觉线索是否为学习得到）、修正阶段选择（单阶段、同时Top-2、迭代2阶段）、支持分支设计（仅视觉支持、仅音频支持、无支持、完整支持）以及支持模块设计（是否包含跨模态交互、是否包含全局聚合）等不同变体的消融实验结果（SI-SNRi）。这些实验验证了默认设计选择的合理性，是模型实现的重要组成部分。 [细节详述] 补充：训练硬件：分析中已提及优化器、学习率等，但未明确说明训练硬件。论文第五节明确指出“Training is conducted on NVIDIA H100 GPUs”。实现设计消融：分析中详细列举了Table VIII的组件消融（CA/BC），但未提及原文 Section VII-D Implementation Design Analysis 和 Table IX 中的实现设计消融。该部分分析了不同路由策略、评估线索来源、修正阶段选择、支持分支设计等具体实现选择对性能的影响，是理解模型工程细节的关键，补充了分析中“训练策略”和“关键超参数”部分的深度。 [实验结果] 补充：与SOTA的量化差距：分析中在结论部分提到了性能提升，但未在实验结果部分给出与关键基线的具体提升数值。可在相应表格结论中补充具体数字，例如：在AVSS任务LRS2数据集标准设置下（Table II），DPC-Net的SI-SNRi（16.8 dB）比最强对照基线AV-CrossNet†（16.5 dB）高出0.3 dB；在AVSR任务LRS2数据集-5~5 dB设置下（Table V），WER（9.0%）比AD-AVSR（9.4%）绝对值低0.4%。统计可靠性具体数值：分析中提及了Table VII显示结果稳定，但未列出具体的均值和标准差。可在该部分补充关键设置下的具体统计数值，例如：在AVSS LRS2 Clean设置下，DPC-Net的SI-SNRi为16.84±0.18 dB（AV-CrossNet†为16.46±0.21 dB）；在AVEL Swin-V2-L+HTS-AT设置下，准确率为83.28±0.11%（AVMoE†为82.13±0.10%）。 [核心摘要] 补充：在“局限性”部分，可进一步明确论文原文提及的局限性。除了分析中已列出的三点，论文摘要最后一句还强调了方法的有效性可能依赖于编码器具有明显的阶段性中间层表示，对于更连续的融合架构（如某些Transformer）的适用性有待验证。这一点已在分析的“核心摘要”局限性第3点中提及，但表述可以更直接引用原文。更重要的是，分析未提及原文在Section I Introduction中关于方法局限性的具体讨论：干预模块增加了参数和计算开销，但论文未详细量化在具体硬件上的实际延迟影响。这一讨论在“毒舌点评”中被提及，但未在“核心摘要”的局限性列表中强调其作为已声明局限性的重要性。 [评分理由] 补充：在“学术质量分”的“实验充分性”部分，可补充原文 Section VI-D Statistical Reliability 和 Table VII 的内容。论文不仅进行了广泛的任务对比，还通过五次重复运行报告了均值和标准差，以证明性能提升的统计可靠性，这增强了实验充分性的说服力，是评分中“实验充分性（优秀）”的一个具体支撑点。 📌 核心摘要问题：在多阶段音视频编码器中，中间层的融合状态会被传递到后续层。一个在当前阶段局部一致性很强的融合状态，可能在没有积累足够的跨层、跨模态证据支持前，就过早地获得了对后续表示的强大影响力，导致“过早感知承诺”，损害整体表示质量。方法核心：提出了延迟感知承诺网络（DPC-Net）。它通过估计一个“准备度缺陷”代理指标 $\widehat{D}_{l}$ 来定位干预敏感的瓶颈层（该指标综合了当前层的音视频一致性、下游锚定度、支持覆盖度）。随后，聚合所有层的音视频支持证据，对瓶颈层的表示进行门控残差校正，以增强其支持覆盖度，再传递给后续层。创新点：首次将多模态中间层融合的“时机”和“准备度”问题形式化为“准备度缺陷”；提出了基于可观测线索的瓶颈定位准则；设计了一个编码器级、任务无关的干预框架，在保持任务头和损失不变的情况下提升表示。实验结果：在AVSS（语音分离）、AVEL（事件定位）、AVSR（语音识别）三个任务和多个数据集上均取得一致提升。例如，在LRS2语音分离标准设置下，SI-SNRi达到16.8 dB，超过最强基线AV-CrossNet（16.5 dB）；在LRS2语音识别低信噪比（-5~5 dB）设置下，WER降至9.0%，优于AD-AVSR（9.4%）。在视觉降质（遮挡、噪声模糊）条件下，优势更为明显。实际意义：为设计更鲁棒的多模态融合模型提供了新思路，即不仅关注当前层的交互，还应评估中间状态对后续步骤的“准备就绪”程度。该方法可作为通用模块提升多种音视频任务的性能。局限性：1）干预模块本身增加了参数和计算开销（论文未详细讨论实际延迟影响）；2）准备度代理指标的阈值（$\tau_A, \tau_P, \tau_C$）需要设定，其敏感性分析可更深入；3）方法的有效性可能依赖于编码器具有明显的阶段性中间层表示，对于更连续的融合架构（如某些Transformer）的适用性有待验证。 🏗️ 模型架构 DPC-Net是一个编码器级的干预框架，旨在嵌入到现有的多阶段音视频编码器中，改进其中间融合状态的表示质量，而不改变任务特定的头部、损失和解码器。 ...

HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound

📄 HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound #音频分类 #多模态模型 #数据集 #基准测试 #音频事件检测 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Robin Burchard（University of Siegen）通讯作者：未说明（论文中未明确指定通讯作者）作者列表：Robin Burchard（University of Siegen）、Pascal-André Brückner（University of Siegen）、Marius Bock（University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence）、Juergen Gall（University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence）、Kristof Van Laerhoven（University of Siegen） 💡 毒舌点评亮点在于其工程上的“洁癖”——用三击掌同步传感器、在家录制真实环境声、为隐私彻底静音人声，这种对数据质量近乎偏执的追求，是很多论文做不到的。短板则在于，花了大力气采集的环境传感器（温湿度、气压）数据，在最终的机器学习实验中几乎成了“鸡肋”，虽然可视化显示有响应，但消融实验未带来提升，暴露出如何有效融合这类低频、慢变上下文模态仍是开放问题。 ...

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio #音频问答 #数据集 #多模态模型 #医学音频 #基准测试 ✅ 6.5/10 | 前25% | #音频问答 | #数据集 | #多模态模型 #医学音频 | arxiv 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Harshit Rajgarhia（未说明所属机构）通讯作者：论文中未提及作者列表：Harshit Rajgarhia（未说明）、Shuubham Ojha（未说明）、Asif Shaik（未说明）、Akhil Pothanapalli（未说明）、Rachuri Lokesh（未说明）、Abhishek Mukherji（未说明）、Prasanna Desikan（未说明） 💡 毒舌点评亮点：论文正视了医学音频领域数据获取难的痛点，并通过结合合成语音与真实临床对话的方式，构建了一个任务类型丰富、规模可观（46,701 QA对）的基准测试集，填补了该领域的评估空白。短板：摘要仅展示了评测结果（如Gemini 2.5 Pro仅68.1%），但对数据集构建过程中的关键技术（如合成语音如何“精心构造”以模拟伪影）、详细的实验对比分析（与其他音频QA或医学QA基准的对比）着墨甚少，使得其作为“基准”的深度和说服力略显不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中未提及具体的下载链接或开源协议。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。补充信息 [实验结果] 补充：论文中明确指出，对13个音频和多模态推理模型进行了评测，并观察到“性能在不同问题类型上存在显著差异”（substantial performance variation across question types）。尽管分析报告中提到“摘要未提供其他模型的具体性能数字”，这与原文信息一致，但原文中强调的“13个模型”这一具体数量和对“问题类型间差异”的观察是明确存在的事实，可以作为更完整的背景信息。（注：经仔细比对，提供的“深度分析结果”已全面且准确地覆盖了“论文原文”中所有实质性信息，包括模型架构（未提及）、实验结果核心数据（Gemini-2.5-pro约68.1%）、训练细节（不适用）、消融实验（未提及）、自我声明的局限性（分析中已推断）以及SOTA差距（仅提及单一模型结果）。原文本身为摘要性质，未提供更详细的实验数据、对比表格或消融分析，因此分析报告无法基于现有信息补充更多具体数值或细节。） ...

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

📄 MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention #音乐生成 #音乐信息检索 #预训练 #多模态模型 #大语言模型 ✅ 7.0/10 | 前50% | #音乐生成 | #预训练 | #音乐信息检索 #多模态模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文声明Yimeng Zhang, Yueru Sun, Haoyu Gu贡献相等）通讯作者：未说明作者列表：Yimeng Zhang（华南理工大学）、Yueru Sun（华南理工大学）、Haoyu Gu*（华南理工大学） 💡 毒舌点评亮点：论文提出了一个完整且逻辑清晰的“EEG-情感-干预计划-音乐生成”闭环框架，巧妙地引入“情感中介”来规避直接EEG-音乐映射的对齐难题，工程集成度高。短板：核心用户研究仅在小规模（未说明具体人数）的短期实验内进行，缺乏临床有效性和长期效果验证；且系统严重依赖未公开的知识库和特定闭源大模型（Qwen2.5），限制了可复现性与独立验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及使用了公开的DEAP数据集（用于EEG情感建模）和MusicCaps数据集（用于音乐-文本数据，论文中使用了其2000个片段的子集进行情感标注）。论文中未提供这两个数据集的具体下载链接。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等具体的复现材料链接。论文中引用的开源项目： DEAP (Dataset for Emotion Analysis using Physiological Signals)：论文中提及的公开EEG情感数据集，无具体链接。 MusicCaps：论文中提及的公开音乐-文本数据集，无具体链接。 MusicGen-medium (1.5B)：论文中提及用作预训练音乐生成骨干的模型，无具体链接。 Qwen2.5-7B-Instruct：论文中提及作为干预规划器中使用的大语言模型，无具体链接。 CLAP：论文中提及的用于文本和音频对齐的模型，无具体链接。 JASCO：论文中提及的用于可控音乐生成的模型，无具体链接。补充信息 [模型架构] 补充：论文明确指出，局部情感轨迹（local affect trajectory）的训练采用了弱监督学习。这是因为原始数据集（如DEAP）仅提供试次（trial）级别的效价-唤醒度标注，而非连续的片段级标注。因此，系统通过构造与全局标签一致性的弱监督信号，来学习EEG片段内部细粒度的情感时序变化。这是一个关键的设计动机，直接针对EEG数据标注稀疏的核心挑战。 [细节详述] 补充：论文在描述用于音乐生成辅助监督的MusicCaps子集标注时，强调了标注流程的规范性以确保数据质量。具体包括：向标注员提供书面说明和低/高效价、低/高唤醒度的锚点示例；音乐片段以随机顺序呈现；最终标签取三名标注员评分的平均值。此外，论文指出该标注子集涵盖了MusicCaps中多样化的流派和乐器编排模式，有助于减少模型训练时的风格偏差（style-specific bias），增强了辅助监督数据的可靠性。 [作者与机构] 补充：论文致谢部分提及该工作由本科生创新创业国家级训练计划（项目编号：202510561174）支持。 📌 核心摘要要解决什么问题：现有数字音乐服务依赖静态偏好，无法根据用户的实时心理状态（如压力、焦虑）进行自适应调整，难以满足个性化心理干预的需求。方法核心是什么：构建一个名为MindMelody的闭环系统。其核心是“情感中介”策略：首先使用混合Transformer-GNN模型从实时EEG信号中解码全局效价-唤醒度（VA）状态和局部情感轨迹；接着，将这些状态输入到一个配备了检索增强生成（RAG）技术的大语言模型（LLM），生成结构化的音乐干预计划（包括节奏、动态等）；最后，通过一个分层的EEG控制器，将这些控制条件注入到预训练的音乐生成模型（MusicGen）中，合成音乐，并根据用户反馈的EEG变化持续更新参数，形成闭环。与已有方法相比新在哪里：不同于直接映射EEG到波形（数据稀疏且不可解释）或静态推荐，MindMelody引入了层次化的语义桥梁（情感解码 -> 语言计划 -> 层次化音乐控制），并通过闭环反馈机制实现了动态适应。其分层控制器能同时处理全局情感方向和局部时序变化，提升了可控性。主要实验结果如何：在自动评估中，完整模型在情感对齐（Emo-MSE: 0.082）、动态一致性（Dyn-Corr: 0.63）和计划符合度（Plan-Cons: 0.78）上均优于基线。在包含人类选择歌单、纯文本、文本+静态VA等条件的主观评估中，MindMelody在情感匹配度（Emo.-MOS: 4.21）、感知帮助性（Help.: 4.18）、效价提升（ΔValence: 0.22）和唤醒度偏差（Aro.-Dev.: 0.14）方面取得最佳表现。其在DEA数据集上的跨被试情感解码精度分别为效价76.8%，唤醒度72.4%。实际意义是什么：该工作为利用可穿戴生理传感设备（如EEG）进行实时、自适应的数字音乐情绪干预提供了一个完整的技术框架和概念验证，展示了脑机接口与生成式AI结合在心理健康领域的应用潜力。主要局限性是：用户研究规模较小且为短期实验，缺乏临床对照和长期效果验证；系统依赖未公开的音乐治疗知识库和特定大模型，通用性和可复现性受限；情感解码的跨被试泛化能力仍是挑战。 🏗️ 模型架构 MindMelody系统是一个端到端的闭环框架，其整体架构如图2所示，包含三个核心模块：情感编码器（Affect Encoder）、干预计划器（Intervention Planner）和EEG控制模块（EEG Control Module）。 ...

Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time

📄 Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time #多模态模型 #对比学习 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #多模态幻觉缓解 | #推理时优化 | #多模态模型 #对比学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Itai Allouche（Technion, Israel, 电气与计算机工程系）通讯作者：Joseph Keshet（Technion, Israel, 电气与计算机工程系）作者列表：Itai Allouche（Technion, Israel, 电气与计算机工程系）、Joseph Keshet（Technion, Israel, 电气与计算机工程系） 💡 毒舌点评亮点：这篇工作成功地将视觉领域的幻觉缓解方法无缝扩展到了音频领域，且实验设计严谨，对比基线全面，说服力较强。短板：推理时每个token都要做多次梯度优化，导致速度慢近10倍，这在实际部署中可能是致命伤，论文对如何权衡这一开销讨论不足。 🔗 开源详情代码： https://github.com/ItaiAllouche/lime 模型权重：论文中未提供具体下载链接。论文使用了以下预训练开源模型：LLaVA-1.5-7B， Qwen-VL-Chat， Qwen2.5-VL-7B-Instruct， SALMONN-7B， Qwen2-Audio-7B-Instruct。数据集：论文中未提供数据集下载链接。论文在评估中使用了以下公开数据集：MSCOCO， A-OKVQA， POPE (基于MSCOCO和A-OKVQA构建)， CHAIR (基于MSCOCO)， AIR-Bench， Audio Hallucination QA， DCASE 2019 Task 4。 Demo：论文中未提及。复现材料：论文在附录B.2中提供了详细的超参数设置表（表A.1），包括每个模型的优化步数、学习率、KL权重和温度参数。未提及提供预训练检查点或完整训练代码。论文中引用的开源项目： OPERA: 论文引用了方法[12]，未提供具体链接。 Visual Contrastive Decoding (VCD): 论文引用了方法[18]，未提供具体链接。 Instruction Contrastive Decoding (ICD): 论文引用了方法[35]，未提供具体链接。 MemVR: 论文引用了方法[40]，未提供具体链接。 V-ITI: 论文引用了方法[31]，未提供具体链接。 Audio-Aware Decoding (AAD): 论文引用了方法[11]，并指出其作者未发布代码。 AttnLRP (Attention-Aware Layer-wise Relevance Propagation): 论文引用了框架[1]，未提供具体链接。 CLIP: 论文引用了模型[27]，未提供具体链接。 LLaMA: 论文引用了模型[33]，未提供具体链接。 Qwen: 论文引用了模型[4]，未提供具体链接。 Vicuna: 论文引用了模型[7]，未提供具体链接。 Whisper: 论文引用了模型[28]，未提供具体链接。 Adam Optimizer: 论文引用了优化器[15]，未提供具体链接。 GPT-4: 论文在附录B.1中提及使用GPT-4作为AIR-Bench的评估器，但GPT-4是闭源的。补充信息 [模型架构] 补充：论文在附录A中详细阐述了用于计算Token级相关性的AttnLRP（Attention-Aware Layer-wise Relevance Propagation）框架的具体传播规则。这包括：LRP-z规则、LRP-ε规则（用于稳定传播）、通过softmax的传播规则、通过注意力-值矩阵乘积的分解规则，以及对LayerNorm/RMSNorm层的近似恒等映射处理。这些是LIME方法中可解释性信号的技术基础，分析中仅概括提及“基于LRP”，未展开此技术细节。 [细节详述] 补充：1) 超参数具体值：分析中提及学习率为“3e-5 ~ 5e-5（模型相关）”，原文表A.1给出了具体值：LLaVA-1.5-7B为3e-4，Qwen-VL-Chat为4e-4，SALMONN-7B为3e-4，Qwen2-Audio-7B为5e-4。2) 消融实验具体结果：分析中仅提及“联合修改K和V效果最好”，原文图5的曲线还显示了：在不同λ下，仅修改ΔK、仅修改ΔV、修改ΔKV三者的性能趋势。尤其在Qwen2-Audio模型上，λ过小（如1e-4）时性能显著下降，证明了KL正则化权重的关键作用。3) 优化器细节：论文明确说明使用Adam优化器进行所有推理时优化步骤。 [实验结果] 补充：1) 更完整的POPE基线对比：分析中仅列出了LLaVA-1.5-7B在MSCOCO上的结果。原文表A.3和表A.4补充了Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct在MSCOCO和A-OKVQA数据集上的结果，以及LLaVA-1.5-7B在A-OKVQA上的结果，提供了更全面的跨模型、跨数据集对比。2) 与SOTA的具体差距数值：在POPE（LLaVA-1.5-7B, MSCOCO）上，LIME的平均准确率（87.89%）比最强基线MemVR（86.93%）高出0.96个百分点；在CHAIR_S上，LIME（42.7%）比MemVR（46.6%）降低了3.9个百分点。在Audio Hallucination QA（Qwen2-Audio-7B, 随机分片）上，LIME的F1（36.85%）显著高于AAD（18.78%）。 [评分/标签] 补充：主方法标签建议从“#对比学习”调整为更准确的“#推理时KV优化”或“#相关性传播”。因为LIME的核心是通过优化KV扰动来调整相关性，对比学习思想仅用于定义相关性目标函数（式2），并非主要技术手段。 📌 核心摘要要解决的问题：多模态大语言模型在推理时容易产生幻觉，即生成与输入视觉或音频证据不符的内容。根本原因是文本token在生成过程中占据主导地位，而感知模态token未被充分利用。方法核心：提出LIME，一个无需训练的推理时框架。其核心是利用层相关性传播（LRP）量化每个token对输出的贡献，并定义一个基于相关性的目标函数，通过优化模型关键值（KV）表示的加性扰动（ΔKV），在解码时动态增强感知模态token的贡献权重。与已有方法相比新在哪里：现有训练无关方法多基于启发式规则（如惩罚主导token）或对比解码，未直接量化和干预模态token的贡献。LIME首次使用LRP作为信号，在推理时直接优化内部表示（KV），以显式地重新平衡模态与文本token的影响力，同时保持KL散度以稳定原始模型行为。主要实验结果：在视觉（POPE， CHAIR）和音频（Audio Hallucination QA， AIR-Bench）的多个基准测试上，LIME一致减少了幻觉并提升了准确性。例如，在POPE（LLaVA-1.5-7B， MSCOCO）上，LIME将平均准确率从79.83%提升至87.89%；在CHAIR上，将CHAIRS从52%降至42.7%。在音频任务上，同样显著优于基线模型和AAD方法。实际意义：提供了一种通用的、即插即用的推理时增强策略，可直接应用于已训练好的多模态大模型，提升其可靠性和事实依据，对于构建可信AI系统有直接价值。主要局限性：推理时需要为每个生成token进行多次优化步，引入了显著的计算开销（速度降低约9倍），限制了在延迟敏感场景的应用。此外，需要针对不同模型和任务调整超参数（如λ， τ）。 🏗️ 模型架构本论文并未提出一个新的端到端模型架构，而是提出了一种推理时干预方法（LIME），应用于现有的多模态大语言模型（MLLM）。其核心思想是在模型生成过程中，动态调整中间表示，而非修改模型参数。 ...

Multimodal Confidence Modeling in Audio-Visual Quality Assessment

📄 Multimodal Confidence Modeling in Audio-Visual Quality Assessment #音视频 #多模态模型 #模型评估 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 | #模型评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Mayesha Maliha R. Mithila（论文中未说明其所属机构）通讯作者：未说明作者列表：Mayesha Maliha R. Mithila（未说明）、Mylene C. Q. Farias（未说明） 💡 毒舌点评本文最大的亮点在于将“模态置信度”从模糊的心理学概念，落地为一个可端到端训练、并能显式调控特征级融合的模块，使模型在“一边瞎一边瞎”的极端场景下依然表现稳健，这比简单堆叠注意力要聪明得多。然而，论文在创新性上略显“缝合”，将已有的MVAD、SCOREQ、Swin等工具进行组合，虽有效但不够性感；更关键的是，在音频/视频质量评估这样一个结果高度依赖主观标注的领域，仅在有限数据集上宣称SOTA，离解决泛化与工业化部署的鸿沟还差得远。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中提及了三个AVQA数据集：UnB-AV、UnB-AVQ和LIVE-SJTU。但论文中未提供这些数据集的获取链接。 Demo：论文中未提及复现材料：论文中未提供检查点或附录链接，但提供了详细的训练配置细节，包括：使用Swin-Small和VGGish作为特征提取器；每视频均匀采样8帧；数据集划分比例为70:15:15（训练:验证:测试）；使用Adam优化器，学习率为5×10⁻⁵，批量大小为6，L2权重衰减为5×10⁻³；采用早停策略，耐心为20轮；训练损失为MSE与PCC损失（权重λ=0.15）之和；所有结果在3个随机种子上取平均。论文中引用的开源项目： Swin Transformer：论文中作为视觉特征提取骨干网络使用，但未提供项目主页链接。 VGGish：论文中作为音频特征提取器使用，但未提供项目主页链接。补充信息根据对深度分析结果与论文原文的仔细比对，发现现有分析遗漏了以下对理解论文有重要价值的信息：模型架构补充：论文中明确指出，其置信度引导的音视频混合器（AVM）的注意力权重计算（公式6：α = σ(qₐ ⊙ k_v^gated)）采用了逐元素乘法，而非标准的注意力矩阵乘法。这种设计直接生成通道特异性的注意力权重，避免了计算复杂度高的矩阵乘法，并实现了对每个特征通道的独立调制。实验结果补充：在UnB-AV数据集的统计显著性分析中（表2），论文给出了MCM-AVQA与最佳基线Nave+w2v的绝对预测误差均值差异为0.054，并提供了详细的p值（如配对t检验p=2.1×10⁻³）。这一具体数值量化了MCM-AVQA的优势程度。细节详述补充：在训练策略部分，论文原文明确指出视频输入是“均匀采样8帧”（uniformly sampled frames per video (e.g. 8)）进行处理。这是模型实现中的一个关键超参数。 📌 核心摘要本文针对音视频质量评估（AVQA）在现实流媒体场景中常面临的“不对称失真”（如视频损坏但音频清晰，或反之）问题，指出现有方法多平等对待两种模态，导致不可靠信号被过度依赖。为此，论文提出了一个名为MCM-AVQA的多模态置信度感知框架。其核心方法是显式估计音频和视频各自的“置信度”分数，并利用一个定制的“音视频混合器”将该置信度注入到特征级的跨模态注意力机制中，通过置信度门控的通道注意力来调制特征交互，使得高置信度模态主导融合，低置信度输入被抑制。与已有方法（如NAViDAd的自动编码器、注意力晚期融合）相比，MCM-AVQA的新颖之处在于将置信度建模为驱动特征融合的核心信号，而非仅在决策层加权。在LIVE-SJTU、UnB-AV和UnB-AVQ三个AVQA基准数据集上的实验表明，MCM-AVQA在PLCC和SROCC指标上取得了最优或极具竞争力的结果。消融研究证实，其置信度引导的音视频混合器及置信度估计模块是性能提升的关键。该工作的实际意义在于提升了AVQA模型在真实、非理想条件下的鲁棒性和可解释性。其主要局限性可能在于：置信度模块（MVAD， SCOREQ）的依赖引入了额外的预训练模型和计算复杂度；模型在更广泛、更复杂的失真类型或场景下的泛化能力有待进一步验证。 ...

MultiSense-Pneumo: A Multimodal Learning Framework for Pneumonia Screening in Resource-Constrained Settings

📄 MultiSense-Pneumo: A Multimodal Learning Framework for Pneumonia Screening in Resource-Constrained Settings #多模态模型 #领域适应 #医疗应用 #低资源 #音频分类 ✅ 6.5/10 | 前50% | #肺炎筛查 | #多模态融合 | #多模态模型 #领域适应 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Dineth Jayakody（Old Dominion University, Department of Computer Science）通讯作者：未说明作者列表：Dineth Jayakody（Old Dominion University, Department of Computer Science）、Pasindu Thenahandi（Old Dominion University, Department of Computer Science）、Chameli Dommanige（Old Dominion University, Department of Computer Science） 💡 毒舌点评亮点在于其务实的“工程师思维”——将多种异构模态（症状、咳嗽、语音、影像）整合成一个可解释、可离线运行的端到端筛查管线，非常契合题目所强调的“资源受限”部署场景。短板是部分核心模块（如咳嗽分析）性能较弱，且整体框架缺乏在真实配对多模态数据集上的端到端联合训练与评估，更像一个精心设计的原型演示，而非在方法论或性能上具有突破性的研究。 ...

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #数据集 #多模态模型 #海洋科学 #知识图谱 #基准测试 ✅ 7.0/10 | 前25% | #数据集 | #知识图谱 | #多模态模型 #海洋科学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yida Xue (徐一达) (浙江大学计算机科学与技术学院，软件技术学院) 通讯作者：Ningyu Zhang (张宁钰) (浙江大学计算机科学与技术学院)， Guozhou Zheng (郑国舟) (舟山海洋研究中心) 作者列表：Yida Xue (浙江大学计算机科学与技术学院，软件技术学院)、Ningyu Zhang (浙江大学计算机科学与技术学院)、Tingwei Wu (浙江大学计算机科学与技术学院，软件技术学院)、Zhe Ma (浙江大学计算机科学与技术学院)、Daxiong Ji (软件技术学院)、Zhao Wang (软件技术学院)、Guozhou Zheng (舟山海洋研究中心)、Huajun Chen (浙江大学计算机科学与技术学院，海洋感知国家重点实验室) 💡 毒舌点评论文构建了一个非常全面且质量控制严格的海洋领域多模态数据集，从教科书到实地采集数据无所不包，是海洋AI领域一项扎实的基础工程。然而，实验部分仅展示了在开源小模型上微调的性能提升，缺乏更大规模模型预训练或与更多SOTA模型的直接比较，使得“基础模型”这一宏大目标的论证稍显薄弱。 ...