ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals

📄 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals #音频大模型 #音频分类 #自监督学习 #工业应用 #开源工具 🔥 9.5/10 | 前10% | #音频分类 | #自监督学习 | #音频大模型 #工业应用 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Yucong Zhang(武汉大学计算机学院;苏州昆山杜克大学多模态智能系统苏州市重点实验室) 通讯作者:Juan Liu(武汉大学人工智能学院), Ming Li(武汉大学人工智能学院;苏州昆山杜克大学) 作者列表:Yucong Zhang(武汉大学计算机学院;苏州昆山杜克大学多模态智能系统苏州市重点实验室), Juan Liu†(武汉大学人工智能学院), Ming Li†(武汉大学人工智能学院;苏州昆山杜克大学)。†表示共同通讯作者。 💡 毒舌点评 亮点: 该论文成功地将频率感知和滑动窗口两大思想结合,构建了一个能优雅处理现实世界工业信号(采样率可变、长度可变)的通用基础模型,并通过一个前所未有的全面基准(SIREN)证明了其优越性,做到了“设计解决实际问题”和“实验证明设计有效”的闭环。 短板: 论文的实验全部基于离线、干净的学术数据集,对于工业界最关心的实时流式推理性能、计算资源消耗以及在嘈杂、非理想工况下的鲁棒性缺乏深入探讨,这使得其“工业应用”的宣称在现阶段更偏向于技术展示而非经过实战检验的方案。 🔗 开源详情 代码:提供了完整的代码仓库链接:https://github.com/yucongzh/ECHO。 模型权重:论文未明确提及是否公开了预训练模型权重,但提供了代码仓库,权重很可能在其中或后续发布。 数据集:公开了SIREN评估基准工具包:https://github.com/yucongzh/SIREN,并说明包含了多个数据集,获取方式应在该仓库中说明。 Demo:论文中未提及在线演示。 复现材料:提供了详尽的训练细节(学习率、batch size、优化器、步数、硬件、调度策略等),足以支持复现。训练细节见论文第5.1节。 论文中引用的开源项目:论文引用了其对比的多个基础模型(BEATs, CED, EAT, Dasheng, FISHER)的开源实现或论文。此外,SIREN基准中使用的数据集(如DCASE, MAFAULDA, CWRU, IIEE, IICA)均为公开数据集。 📌 核心摘要 问题:现有的音频/信号基础模型大多基于视觉Transformer,依赖固定尺寸的频谱图输入和固定的预设采样率。处理可变长度信号需要截断/插值,破坏时序连续性;处理不同采样率信号需要重采样,导致信息损失。这限制了它们在通用机器信号监测(涵盖声学、振动等多模态、多采样率数据)中的应用。 方法核心:提出ECHO模型,其核心是“频率感知层级编码”。首先,将频谱图沿频率轴均匀分割为多个子带,并为每个子带计算基于其中心频率的相对位置编码,以适配任意采样率。其次,在每个子带上应用滑动窗口提取重叠的时间补丁,以处理任意长度的输入,无需填充或裁剪。最后,将每个子带的序列送入独立的ViT编码器,再将所有子带的分类令牌拼接成最终的层级化嵌入。 新意:与已有的频率分割模型(如FISHER)相比,ECHO创新性地引入了频率位置编码,使模型能显式地感知子带在全频谱中的相对位置,而非独立处理。与传统的固定补丁模型(如BEATs, EAT)相比,滑动补丁设计能更好地保留时序连续性,适应可变长度输入。ECHO旨在统一支持可变长度和可变采样率信号。 实验结果:在论文提出的统一评估基准SIREN上,ECHO(Small版)取得了77.65%的整体平均分,超过了最强基线FISHER(76.86%)和Dasheng(76.04%)。在故障分类任务平均准确率达到93.19%,位居第一;在DCASE异常检测任务平均得分62.11%,也达到最佳。相比FISHER,ECHO在所有DCASE年份和大部分故障分类数据集上均有提升。 模型 规模 参数量 SIREN总均分 DCASE任务均分 故障分类任务均分 ECHO Small 22M 77.65 62.11 93.19 FISHER Small 22M 76.86 61.00 92.73 Dasheng Base 86M 76.04 59.95 92.12 EAT Base 86M 74.23 60.84 87.62 BEATs Base 90M 71.86 61.86 81.86 实际意义:ECHO为工业设备的状态监测提供了一个强大的通用前端特征提取器。其处理可变采样率和长度的能力,使其能无缝集成来自不同传感器、不同工况的数据,无需预处理重采样或裁剪,简化了部署流程。开源代码和SIREN基准为社区提供了公平比较和推进该领域研究的平台。 主要局限:模型虽在学术数据集上表现优异,但缺乏在真实工业场景(高噪声、数据不平衡、极端故障模式)下的验证。论文未探讨模型的推理效率(如延迟、吞吐量),这对实时监测至关重要。此外,滑动窗口带来的计算量增加及其优化策略未做深入分析。 🏗️ 模型架构 ECHO的整体架构如图1所示,是一个端到端的处理流程,包含四个核心组件: ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 340 words

Emo-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition

📄 Emo-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition #语音情感识别 #音频大模型 #领域适应 #零样本 ✅ 7.0/10 | 前25% | #语音情感识别 | #领域适应 | #音频大模型 #零样本 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未说明 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Y. Alicia Hong(George Mason University)、Ye Gao(College of William & Mary) 💡 毒舌点评 亮点在于其“测试时适配”思路非常务实,无需访问源数据或更新模型权重,仅靠维护一个轻量的统计量就能持续改善模型在陌生口音或录音环境下的表现,这在工业部署中极具吸引力。短板是其底层假设(特征服从高斯分布且共享协方差)可能过于简化,对于情感这种高度复杂且非线性的概念,长期来看,这种静态分布模型可能无法捕捉更细微的适应需求。 ...

2026-04-29 · 更新于 2026-07-03 · 3 min · 486 words

Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

📄 Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations #音频大模型 #音频安全 #对抗样本 #语音合成 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #音频大模型 #语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)(注:论文标明三位为共同第一作者) 通讯作者:Hung-yi Lee(台湾大学)(注:论文未明确标注通讯作者,Hung-yi Lee为资深作者,按惯例推断) 作者列表:Bo-Han Feng(台湾大学)、Chien-Feng Liu(台湾大学)、Yu-Hsuan Li Liang(台湾大学)、Chih-Kai Yang(台湾大学)、Szu-Wei Fu(NVIDIA)、Zhehuai Chen(NVIDIA)、Ke-Han Lu(台湾大学)、Sung-Feng Huang(NVIDIA)、Chao-Han Huck Yang(NVIDIA)、Yu-Chiang Frank Wang(NVIDIA)、Yun-Nung Chen(台湾大学)、Hung-yi Lee(台湾大学) 💡 毒舌点评 这篇论文的“问题嗅觉”非常灵敏,精准地抓住了大型音频语言模型在“情绪化表达”这一软肋上的安全漏洞,并用一套严谨的控制变量实验(同一指令、同一说话人、不同情绪与强度)给出了令人信服的实证证据,这是其最大亮点。然而,论文在揭示问题后戛然而止,未能进一步探索漏洞产生的原因(如数据偏差、模型架构缺陷)或提出任何防御/改进方案,使其研究深度略显不足,更像是一个扎实的“安全审计报告”,而非一个完整的“攻防研究”。此外,模型评估的全面性可以进一步加强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文明确提供数据集获取链接:https://huggingface.co/LALM-emotional-vulnerability。 Demo:未提及。 复现材料:论文描述了数据集构建流程和评估指标,但未提供完整的训练细节、配置或检查点。 论文中引用的开源项目:主要依赖AdvBench(文本有害查询)、CREMA-D(情感语音参考)和CosyVoice 2(TTS模型)。 📌 核心摘要 问题:大型音频语言模型(LALMs)的安全对齐在面对说话人情感(副语言信息)变化时,存在尚未被系统研究的脆弱性。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 230 words

Evaluating Compositional Structure in Audio Representations

📄 Evaluating Compositional Structure in Audio Representations #模型评估 #自监督学习 #音频大模型 #基准测试 #数据集 ✅ 7.0/10 | 前50% | #模型评估 | #自监督学习 | #音频大模型 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Chuyang Chen(纽约大学音乐与音频研究实验室) 通讯作者:未说明 作者列表:Chuyang Chen(纽约大学音乐与音频研究实验室)、Bea Steers(纽约大学音乐与音频研究实验室)、Brian McFee(纽约大学音乐与音频研究实验室)、Juan Bello(纽约大学音乐与音频研究实验室) 💡 毒舌点评 亮点:论文敏锐地抓住了音频表示评估中“组合性”这一缺失的关键维度,并借鉴视觉与语言领域的思想,设计了A-COAT和A-TRE两个互补任务,首次为该领域提供了系统化的诊断工具。短板:所有评估均在精心控制的合成数据集(FM合成音)上进行,虽然保证了变量的纯净,但由此得出的结论能否平滑迁移到充满噪声、混响和复杂语义的真实声学场景,是一个巨大的问号。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/chuyangchencd/audio-compositionality。 模型权重:论文中未提及提供作者训练的组合模型 g_θ 的权重。评估的是现有的预训练音频编码器(如PANNs, AudioMAE等),这些模型的官方权重需从各自原项目获取。 数据集:根据论文描述,合成数据集已随代码仓库一同发布。 Demo:论文中未提及在线演示。 复现材料:论文详细提供了数据生成流程、属性定义、平衡算法(Entrofy)、A-TRE模型训练的所有超参数(优化器、学习率、批大小、早停策略等),复现信息非常充分。 论文中引用的开源项目:learnfm (FM合成器), Entrofy (数据平衡算法)。 📌 核心摘要 问题:现有的音频表示评估主要关注下游任务(如分类)的性能或少数泛化属性(如等变性),但忽略了与人类听觉感知密切相关的“组合性”(即用部分和组合规则表示复杂声景的能力)。 方法核心:提出首个评估音频表示组合性的基准框架,包含两个任务:A-COAT(测试嵌入在声源加法变换下的代数一致性)和A-TRE(测试嵌入是否可由属性级的原始单元重构)。配套提供了大规模、受控的合成音频场景数据集。 与已有方法相比新在哪里:这是首个专门针对音频表示组合性进行系统评估的工作。与现有的DCASE、HEAR等下游任务基准不同,它不直接测量任务性能,而是诊断表示的内在结构属性。 主要实验结果: 论文对比了多个主流音频编码器(如PANNs, CLAP, Whisper, AudioMAE, BEATs)。关键发现如Table 1所示: 模型 (检查点) 架构 训练目标 参数量 A-COAT ↑ A-TRE ↑ PANNs (Cnn14) CNN 有监督分类(AudioSet) 81M 0.27 ± 0.24 0.93 ± 0.04 PaSST (PaSST-S) Transformer 有监督分类(AudioSet) 86M 0.26 ± 0.19 0.87 ± 0.05 CLAP (630k-AS-best) Transformer 对比音-文预训练 31M 0.39 ± 0.20 0.90 ± 0.05 Whisper (large-v2) Hybrid ASR 635M 0.32 ± 0.22 0.98 ± 0.01 AF-Whisper (AF3) Hybrid 对齐到LLM 635M 0.28 ± 0.16 0.89 ± 0.03 AudioMAE (AS-2M) Transformer 掩码自编码(自监督) 86M 0.41 ± 0.24 0.99 ± 0.01 BEATs (iter3) Transformer 迭代掩码预测(自监督) 90M 0.40 ± 0.21 0.97 ± 0.02 自监督模型(AudioMAE, BEATs)在两项任务上均表现强劲。BEATs在A-COAT任务中随着数据多样性(H_quad)增加性能反而提升,展现出独特的鲁棒性。模型间表现差异显著,证明两个任务能有效区分模型特性。 实际意义:为音频表示学习研究提供了新的评估维度和基准工具,有助于理解和改进音频模型如何分解与组合声学信息,可能推动未来更鲁棒、可解释的音频模型的发展。 主要局限性:评估完全基于合成数据集,缺乏在真实世界数据上的验证;合成属性的离散化(8类)可能无法捕捉连续声学空间的复杂性;任务设计聚焦于特定的加法和重构组合形式,可能未涵盖组合性的全部方面。 🏗️ 模型架构 本文并非提出一个新的编码器模型,而是提出一个评估框架。其核心架构是两个评估任务(A-COAT和A-TRE)的设计。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 324 words

Exploring How Audio Effects Alter Emotion with Foundation Models

📄 Exploring How Audio Effects Alter Emotion with Foundation Models #音乐理解 #情感计算 #音频大模型 #模型评估 #预训练 ✅ 7.0/10 | 前50% | #音乐理解 | #预训练 | #情感计算 #音频大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Stelios Katsis(stelioskatsis12@gmail.com) 通讯作者:未说明(论文提供了多位作者的邮箱,但未明确指定通讯作者) 作者列表:Stelios Katsis(雅典国立技术大学),Vassilis Lyberatos(雅典国立技术大学),Spyridon Kantarelis(雅典国立技术大学),Edmund Dervakos(雅典国立技术大学),Giorgos Stamou(雅典国立技术大学) 💡 毒舌点评 亮点在于研究设计的系统性和全面性,将音频效果的影响拆解为性能、预测、嵌入和真实场景四个层面进行剖析,堪称“模型听觉效应”领域的标准化审计流程。短板则是“浅层分类器探针”方法略显保守,更像是用一个简单模型去“问”复杂模型“你看到了什么”,难以挖掘基础模型内部更深层、更复杂的非线性表征变化。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/stelioskt/audioFX。论文明确声明代码、分析细节和完整实验结果均已公开。 模型权重:未提及公开任何经过微调的模型权重或探针模型权重。 数据集:论文使用的数据集(EMOPIA, DEAM, witheFlow)均为已公开的学术数据集。 Demo:未提及提供在线演示。 复现材料:论文中提及GitHub仓库包含“完整实验结果”,但未详细说明是否包含训练脚本、环境配置文件(如requirements.txt)、预训练模型下载指南或详细的复现步骤文档。 论文中引用的开源项目:主要引用了pedalboard库(用于应用音频效果),以及三个基础模型(MERT, CLAP, Qwen2-Audio)对应的官方开源实现。 📌 核心摘要 问题:音乐制作中常用的音频效果(如混响、失真、调制)会如何系统性地影响人类(或AI)对音乐情感的感知?这一系统性联系尚存研究空白。 方法核心:采用三个音频/音乐基础模型(MERT, CLAP, Qwen2-Audio)作为特征提取器,冻结其参数,后接可解释的浅层分类器(XGBoost)进行情感预测。通过施加不同程度的音频效果,探测模型性能、预测结果和嵌入空间的变化。 新意:首次大规模、系统性地利用多种基础模型,结合控制实验(六种效果、多强度)与真实场景(艺术家效果链),探究音频效果对模型情感感知的“黑箱”影响,填补了从信号处理到情感计算链路中的关键一环。 主要实验结果:如表1所示,随着效果强度增加,模型性能普遍下降。失真(Distortion)和相位器(Phaser)影响最大,例如在witheFlow数据集上,CLAP模型的F1分数因高强度失真下降了0.488。如图1所示,高失真会一致增加“愤怒”预测、减少“平静”预测。嵌入空间分析(图2)显示,CLAP和Qwen的嵌入随效果变化产生大位移,而MERT相对稳定。真实场景效果链(图3)引发更大、更连贯的嵌入偏移。 实际意义:为音乐制作人、情感计算研究者提供了关于不同音频效果“情感倾向”的实证参考,并揭示了不同基础模型在音频鲁棒性和情感表征上的差异。 主要局限性:研究仅针对三个特定基础模型,结论的普适性有待验证;嵌入空间分析主要依赖UMAP可视化,缺乏更定量的度量;所训练的浅层探针可能无法完全捕捉基础模型的全部复杂性。 🏗️ 模型架构 本论文并非提出一个新的端到端架构,而是构建了一个探测性研究框架。其整体流程如下: ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 220 words

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS

📄 From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS #音频场景理解 #跨模态 #多任务学习 #音频大模型 ✅ 7.5/10 | 前25% | #音频场景理解 | #多任务学习 | #跨模态 #音频大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuhang Jia(南开大学计算机学院TMCC) 通讯作者:Shiwan Zhao(南开大学计算机学院TMCC,Email: zhaosw@gmail.com) 作者列表:Yuhang Jia(南开大学计算机学院TMCC)、Xu Zhang(南开大学计算机学院TMCC)、Yujie Guo(南开大学计算机学院TMCC)、Yang Chen(南开大学计算机学院TMCC)、Shiwan Zhao(南开大学计算机学院TMCC) 💡 毒舌点评 这篇论文用一个直觉上更“温和”、更符合预训练目标的共性描述任务,漂亮地“击败”了看似更具挑战性但可能“用力过猛”的差异描述任务,证明在多模态大模型微调中,“顺毛捋”有时比“找不同”更有效且稳健。不过,其共性描述的生成规则(尤其是替换操作)依赖于简单的字面重叠,可能在面对更复杂、语义更抽象的音频对时显得脆弱,这限制了该方法向更通用方向发展的潜力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权���:未提及是否公开微调后的模型权重。 数据集:论文中提及构建了148,500对训练数据,但未提供数据集下载链接或公开计划。 Demo:未提及。 复现材料:论文给出了训练的关键超参数(LoRA参数、优化器设置、批次大小等),但未提供完整的训练配置文件、数据样本或更详细的生成脚本。 论文中引用的开源项目: Qwen2-Audio:作为基座模型(https://huggingface.co/Qwen/Qwen2-Audio-7B)。 Audit:用于数据构造的参考框架。 ms-swift:用于实现LoRA微调的工具库。 论文中未提及完整的开源计划。 📌 核心摘要 这篇论文旨在解决多模态大语言模型(MLLM)在采用音频差异描述(ADC)任务进行微调时,因输出与预训练目标不匹配而导致的语义差距和灾难性遗忘问题。为此,作者提出了一种新的训练范式——音频共性描述(ACC),该任务引导模型学习并描述成对音频之间的共享语义,而非差异。与基于音频混合的数据构建方法(源自音频编辑任务)相结合,ACC提供了一个与标准音频描述(AC)更一致的训练目标。主要实验结果表明,在Qwen2-Audio模型上,ACC在AudioCaps和Clotho基准测试上的多个指标(如CIDEr-D, SPIDEr)均显著优于仅用AC或ADC微调的方法。同时,ACC在下游语音和音乐任务(如人声分类、情感识别、乐器分类)上表现出更强的通用能力保留,避免了ADC导致的性能下降。该工作的核心意义在于,提出了一个更鲁棒的音频文本跨模态对齐训练策略,平衡了任务专用性能与模型通用性。其主要局限性在于,用于构建共性描述的规则(如替换操作中提取最长连续重叠短语)可能过于简单,无法处理所有复杂的语义对齐情况,且实验评估主要集中在描述任务,对更细粒度的跨模态推理能力验证不足。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 370 words

ICASSP 2026 - 音频大模型 论文列表

ICASSP 2026 - 音频大模型 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 AR&D: A Framework for Retrieving and Describing Concepts for 6.5分 前50% 📋 论文详情 🥇 AR&D: A Framework for Retrieving and Describing Concepts for Interpreting AudioLLMs ✅ 6.5/10 | 前50% | #音频大模型 | #自监督学习 | #模型评估 👥 作者与机构 第一作者:Townim Faisal(澳大利亚机器学习研究所,阿德莱德大学;杜比实验室) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表: Townim Faisal(澳大利亚机器学习研究所,阿德莱德大学;杜比实验室) Ta Duc Huy(澳大利亚机器学习研究所,阿德莱德大学;杜比实验室) Siqi Pan(杜比实验室) Jeremy Stoddard(杜比实验室) Zhibin Liao(澳大利亚机器学习研究所,阿德莱德大学;计算机与数学科学学院) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-07-03 · 1 min · 101 words

Improving Audio Question Answering with Variational Inference

📄 Improving Audio Question Answering with Variational Inference #音频问答 #变分推断 #音频大模型 #模型校准 #选择性预测 ✅ 7.5/10 | 前25% | #音频问答 | #变分推断 | #音频大模型 #模型校准 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haolin Chen(Idiap Research Institute, Martigny, Switzerland; EPFL, Lausanne, Switzerland) 通讯作者:未说明 作者列表:Haolin Chen(Idiap Research Institute, EPFL) 💡 毒舌点评 论文亮点在于成功地将高效的变分推断优化器(IVON)应用于音频问答任务,不仅略微提升了准确率,更显著改善了模型的校准特性和选择性预测能力,这对构建可信赖的AI系统非常实用。但略显单薄的是,其核心贡献本质上是“把一个已知的好工具用在一个新场景”,而非提出针对音频问答特性设计的新方法,创新维度稍显单一。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开的模型权重(包括基线模型和微调后模型)。基线模型Qwen2.5-Omni本身可能是开源的(论文未确认)。 数据集:使用了DCASE 2025 AQA数据集,论文未明确说明其是否公开以及如何获取,但DCASE挑战赛数据集通常公开。 Demo:未提及。 复现材料:提供了非常充分的训练细节、配置和超参数设置,有利于复现。 论文中引用的开源项目:主要引用了作为基础模型的 Qwen2.5-Omni [6] 和作为微调方法的 LoRA [25]。优化器 IVON [14] 本身也是一项开源工作。 📌 核心摘要 要解决的问题:多模态大模型(如音频问答模型)在微调后常常过于自信(overconfident),预测置信度不能反映真实准确率(校准差),导致在需要可靠判断的风险敏感应用中不可信。 方法核心:采用变分推断(VI)框架,使用高效的优化器IVON替代传统的AdamW,对大型音频语言模型Qwen2.5-Omni进行参数高效微调(LoRA)。IVON在训练中对模型权重的后验分布进行建模,从而捕获参数不确定性。 与已有方法相比新在哪里:区别于传统优化器(如Adam)提供点估计,以及Monte Carlo Dropout等事后不确定性估计方法,IVON在训练过程中即内建了不确定性建模,且计算成本接近Adam。本文首次将其系统地应用于多模态音频问答任务。 主要实验结果:在DCASE 2025 AQA数据集(BQA, TSQA, CQA三个子集)上,与AdamW基线相比: 准确率(ACC):IVON(均值或MC-8)平均从80.45%提升至80.97%。 校准:ECE(越低越好)从16.2显著降至10.0(IVON MC-8),NLL和Brier分数同样改善。 选择性预测:在拒答1%最不确定样本时(C@1%),覆盖准确率从3.8%(AdamW)大幅提升至19.5%(IVON MC-8),风险-覆盖曲线下面积(AUC)从7.4降至5.8。 消融实验表明,增加蒙特卡洛(MC)采样数能持续改善校准,而调整后验分布的温度则在准确率和校准间存在权衡。 实际意义:为多模态模型提供了更可靠的置信度估计,使其能在不确定时主动拒绝回答(选择性预测),从而提升系统在医疗、安防等风险敏感领域的应用安全性。 主要局限性:研究仅限于多选题形式的音频问答(单次令牌预测),未验证在开放式生成任务(如自由问答、语音合成)中的效果。 🏗️ 模型架构 本文未提出新的模型架构,而是将变分推断优化器应用于现有的大型音频语言模型(LALM)进行微调。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 377 words

Investigating Modality Contribution in Audio LLMs for Music

📄 Investigating Modality Contribution in Audio LLMs for Music #音频大模型 #模型评估 #可解释AI #音乐理解 #多模态模型 ✅ 6.5/10 | 前50% | #模型评估 | #可解释AI | #音频大模型 #音乐理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Giovana Morais(纽约大学音乐与音频研究实验室) 通讯作者:未说明 作者列表:Giovana Morais(纽约大学音乐与音频研究实验室)、Magdalena Fuentes(纽约大学音乐与音频研究实验室,Integrated Design & Media) 💡 毒舌点评 亮点:首次将严谨的博弈论可解释性工具(MM-SHAP)引入音频大模型分析,量化了音频与文本模态的“功劳簿”,为“模型到底听没听”这个玄学问题提供了硬核分析框架。 短板:整个研究建立在一个被后续工作指出“测试的是LLM推理而非音频感知”的基准(MuChoMusic)上,这好比用一把可能不准的尺子去精确测量,结论的可靠性打了折扣;同时,分析结论停留在“音频贡献低”的现象描述,未能深入揭示音频信息在模型内部是如何被利用或“遗忘”的机制。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/giovana-morais/2025_investigating_mmshap。 模型权重:论文中未提及提供新的模型权重。分析使用了公开模型Qwen-Audio-Chat和MU-LLaMA。 数据集:分析使用公开的MuChoMusic基准数据集。 Demo:论文提到提供了交互式图表演示页面,但未给出具体链接。 复现材料:论文中提供了代码和基于公开模型与数据的分析框架,但缺乏详细的训练/评估超参数配置文件和分步指南。 引用的开源项目:依赖shap库进行Shapley值计算;依赖Qwen-Audio和MU-LLaMA的官方代码库。 📌 核心摘要 问题:音频大语言模型(Audio LLMs)声称能理解音频,但近期基准测试表明其性能可能过度依赖文本推理,音频模态是否被有效利用存疑。 方法核心:将MM-SHAP(一种基于Shapley值、与性能无关的度量)适配到音频领域,通过掩码音频波形和文本令牌来量化计算每个模态对模型输出的贡献度(A-SHAP, T-SHAP)。 新方法与创新点:首次将MM-SHAP框架应用于音频大模型,提出了针对音频的动态掩码策略,并将分析扩展到生成式任务(通过衡量答案token的对数变化)。 主要实验结果:在MuChoMusic基准上对比了Qwen-Audio和MU-LLaMA。发现性能更好的Qwen-Audio反而更依赖文本(A-SHAP约0.23),而MU-LLaMA模态利用更均衡(A-SHAP约0.50)。定性分析显示,即使整体音频贡献低,模型也能在特定token(如“铃声”)上正确定位相关音频片段。 模型 实验设置 准确率 A-SHAP MU-LLaMA MC-PI 0.30 0.50 ± 0.02 MC-NPI 0.32 0.47 ± 0.02 QwenAudio MC-PI 0.44 0.23 ± 0.02 MC-NPI 0.47 0.21 ± 0.02 表1:两个模型在不同实验设置下的准确率和平均音频模态贡献度(A-SHAP)。 MM-SHAP计算过程示意图 图1:MM-SHAP计算流程示意图。通过掩码所有可能的输入组合(近似为随机排列),并计算基础答案(未掩码推理)的对数变化来平均得到Shapley值。 定性分析示例 图2:QwenAudio定性分析示例。展示了对于输出token“bell”,输入文本和音频各区域的Shapley值贡献,绝对值高的区域(深色)对应模型认为重要的特征。 ...

2026-04-29 · 更新于 2026-07-03 · 1 min · 151 words

Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time

📄 Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time #音频问答 #音频分类 #音频大模型 #推理时调整 ✅ 7.5/10 | 前25% | #音频问答 | #推理时调整 | #音频分类 #音频大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hangyu Du(新加坡国立大学,设计与工程学院) 通讯作者:Jingxing Zhong(福州大学,明智国际工程学院) 作者列表:Hangyu Du(新加坡国立大学,设计与工程学院),Jingxing Zhong(福州大学,明智国际工程学院)(论文注明两位作者贡献相等)。 💡 毒舌点评 亮点:精准地诊断出ALLMs解码时“听着听着就忘了音频”的顽疾,并用一个免训练、近乎零开销的“解码时注意力微调”插件(AttnAdapter)显著缓解了这个问题,效果立竿见影,实用性很强。 短板:方法更像是对症下药的“经验性工程”,虽然能“work”,但对于注意力漂移的根本原因(为何系统令牌会成为sink?为何音频注意力会衰减?)缺乏更深层次的理论或神经机制层面的剖析,略显“知其然而不知其所以然”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验使用公开的MMAU-mini和AIR-Bench数据集,但论文中未提及数据集获取方式或自有数据。 Demo:未提及。 复现材料:提供了Algorithm 1伪代码和完整的超参数设置,足以复现核心方法。但缺乏具体代码实现和运行脚本。 引用的开源项目:论文未提及直接依赖的开源项目代码。 📌 核心摘要 要解决什么问题:本文发现并研究了音频大语言模型(ALLMs)在自回归解码过程中普遍存在的“注意力路由退化”现象。随着解码进行,模型对音频输入(Audio Tokens)的注意力会系统性衰减,转而过度依赖语言先验和早期生成的“汇聚”令牌,导致回答偏离输入音频,产生幻觉。 方法核心是什么:提出AttnAdapter,一个训练无关、可插拔的模块。它在解码的每一步,对注意力计算中的原始对数几率(logits)进行分段、时间感知的乘性重缩放。具体包含三个组件:(1) 系统令牌汇聚抑制,(2) 音频关键点时序增强,(3) 局部输出窗口稳定。 与已有方法相比新在哪里:与现有方法(如EAH、MemVR)相比,AttnAdapter的特点是:完全在解码时操作,无需训练或修改模型架构;设计上明确针对音频模态的序列性、密集性特点,提出时间感知的增强策略;并且组合了多种干预(抑制、增强、稳定)以协同工作。 主要实验结果如何:在MMAU-mini和AIR-Bench两个基准上,AttnAdapter为LLaMa-Omni、Qwen-Omni和Audio Flamingo 3三个模型带来了稳定的性能提升。 在LLaMa-Omni上,MMAU-mini平均准确率从0.71提升至0.85(+14%),AIR-Bench平均准确率从0.69提升至0.82(+13%)。 在Qwen-Omni上,MMAU-mini平均准确率从0.73提升至0.87(+14%),AIR-Bench平均准确率从0.71提升至0.84(+13%)。 在Audio Flamingo 3上,MMAU-mini平均准确率从0.73提升至0.87(+14%),AIR-Bench平均准确率从0.70提升至0.83(+13%)。 所有方法中,AttnAdapter均取得了最高的分数,尤其在“混合音频”子任务上改进明显。 实际意义是什么:提供了一个即插即用、计算开销极低(延迟增加<2%)的解决方案,可以增强现有ALLMs的音频接地能力,使其在长序列对话和推理中能持续“听”音频,减少基于文本先验的幻觉,提升在音频问答、分析等实际应用中的可靠性和准确性。 主要局限性是什么:(1) 方法的有效性依赖于经验调优的超参数(σ, η, g, w, β),对于新模型或任务可能需要重新搜索。(2) 论文主要关注准确率提升,对模型生成文本的流畅性、连贯性等质量指标的详细分析不足。(3) 机制解释偏经验性,缺乏对ALLMs内部信息流动的深层理论分析。 🏗️ 模型架构 本文提出的AttnAdapter并非一个完整的端到端模型,而是一个推理时的插件模块,旨在修改现有基于解码器的音频大语言模型(ALLMs)在解码阶段的注意力计算过程。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 319 words