Improving Audio Question Answering with Variational Inference

📄 Improving Audio Question Answering with Variational Inference #音频问答 #变分推断 #音频大模型 #模型校准 #选择性预测 ✅ 7.5/10 | 前25% | #音频问答 | #变分推断 | #音频大模型 #模型校准 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haolin Chen(Idiap Research Institute, Martigny, Switzerland; EPFL, Lausanne, Switzerland) 通讯作者:未说明 作者列表:Haolin Chen(Idiap Research Institute, EPFL) 💡 毒舌点评 论文亮点在于成功地将高效的变分推断优化器(IVON)应用于音频问答任务,不仅略微提升了准确率,更显著改善了模型的校准特性和选择性预测能力,这对构建可信赖的AI系统非常实用。但略显单薄的是,其核心贡献本质上是“把一个已知的好工具用在一个新场景”,而非提出针对音频问答特性设计的新方法,创新维度稍显单一。 📌 核心摘要 要解决的问题:多模态大模型(如音频问答模型)在微调后常常过于自信(overconfident),预测置信度不能反映真实准确率(校准差),导致在需要可靠判断的风险敏感应用中不可信。 方法核心:采用变分推断(VI)框架,使用高效的优化器IVON替代传统的AdamW,对大型音频语言模型Qwen2.5-Omni进行参数高效微调(LoRA)。IVON在训练中对模型权重的后验分布进行建模,从而捕获参数不确定性。 与已有方法相比新在哪里:区别于传统优化器(如Adam)提供点估计,以及Monte Carlo Dropout等事后不确定性估计方法,IVON在训练过程中即内建了不确定性建模,且计算成本接近Adam。本文首次将其系统地应用于多模态音频问答任务。 主要实验结果:在DCASE 2025 AQA数据集(BQA, TSQA, CQA三个子集)上,与AdamW基线相比: 准确率(ACC):IVON(均值或MC-8)平均从80.45%提升至80.97%。 校准:ECE(越低越好)从16.2显著降至10.0(IVON MC-8),NLL和Brier分数同样改善。 选择性预测:在拒答1%最不确定样本时(C@1%),覆盖准确率从3.8%(AdamW)大幅提升至19.5%(IVON MC-8),风险-覆盖曲线下面积(AUC)从7.4降至5.8。 消融实验表明,增加蒙特卡洛(MC)采样数能持续改善校准,而调整后验分布的温度则在准确率和校准间存在权衡。 实际意义:为多模态模型提供了更可靠的置信度估计,使其能在不确定时主动拒绝回答(选择性预测),从而提升系统在医疗、安防等风险敏感领域的应用安全性。 主要局限性:研究仅限于多选题形式的音频问答(单次令牌预测),未验证在开放式生成任务(如自由问答、语音合成)中的效果。 🏗️ 模型架构 本文未提出新的模型架构,而是将变分推断优化器应用于现有的大型音频语言模型(LALM)进行微调。 ...

2026-04-29