Test-Time Scaling for Auditory Cognition in Audio Language Models

📄 Test-Time Scaling for Auditory Cognition in Audio Language Models #音频问答 #测试时扩展 #音频大模型 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #测试时扩展 | #音频大模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ting Dang (墨尔本大学,澳大利亚) 通讯作者:未说明 作者列表:Ting Dang(墨尔本大学,澳大利亚)、Yan Gao(剑桥大学,英国)、Hong Jia(奥克兰大学,新西兰;墨尔本大学,澳大利亚) 💡 毒舌点评 这篇论文首次系统性地探索了测试时扩展(TTS)策略在音频语言模型(ALM)听觉认知任务上的应用,填补了一个明显的空白。然而,其自建数据集仅包含10名参与者,样本规模偏小,这使得论文声称的“揭示ALM的局限性”和“TTS显著提升性能”的结论在泛化性上略显薄弱。 📌 核心摘要 问题:现有的音频语言模型(ALM)在训练数据和基本能力上关注语音转录与感知,但在应对真实世界复杂听觉认知场景(如鸡尾酒会问题)时,其推理能力和适应性不足。 方法核心:本文的核心在于评估ALM的认知能力并探索提升其推理能力的方法。作者设计了三个难度递增的听觉认知任务(自然声识别、单说话人数字序列、双说话人重叠数字序列),收集了相应的人类回答数据集。随后,系统评估了五款主流ALM在无额外处理下的表现,并首次尝试应用五种源自文本大模型的测试时扩展(TTS)策略(包括Chain-of-Thought提示、自一致性解码、束搜索加权、LLM验证器打分等)来增强模型的推理能力。 创新点:相较于已有工作,本文的创新在于:(1) 首次针对ALM设计并评估了听觉认知任务;(2) 首次将多种TTS策略迁移到ALM的音频推理任务中,证明了其有效性;(3) 揭示了当前ALM在复杂听觉场景下的显著不足,并指出了提升方向。 主要实验结果:所有测试的ALM(包括开源和闭源)在听觉认知任务上的表现均低于人类。其中GPT-4o表现最佳,在某些复杂场景甚至超越人类。引入TTS策略后,性能获得显著提升(相对提升幅度从9%到150%不等)。具体结果见表2。 实际意义:该研究为提升ALM在复杂、真实听觉环境中的理解和推理能力提供了新思路,验证了TTS作为一种无需额外训练即可增强模型推理能力的方法在多模态领域的潜力。 主要局限性:研究构建的数据集规模较小(10名参与者,180条音频事件),可能限制结论的普遍性;实验仅在有限的五个模型和三种任务上进行;缺乏为音频任务专门设计的奖励模型,验证器方案(使用GPT-4o)较为通用。 表2:使用TTS的准确率对比(括号内为相对百分比提升) 模型 方法 总体 (Overall) 任务1 (Task1) 任务2 (Task2) 任务3 (Task3) Qwen2-Audio No TTS 0.367 0.500 0.458 0.250 CoT 0.417 (+13.6%) 0.667 (+33.4%) 0.458 (+0.0%) 0.167 (-33.2%) Majority 0.400 (+9.0%) 0.500 (+0.0%) 0.583 (+27.3%) 0.167 (-33.2%) BS-W 0.500 (+36.2%) 0.167 (-66.6%) 0.750 (+63.8%) 0.417 (+66.8%) LLM-Top1 0.400 (+9.0%) 0.667 (+33.4%) 0.500 (+9.2%) 0.167 (-33.2%) LLM-W 0.400 (+9.0%) 0.667 (+33.4%) 0.500 (+9.2%) 0.167 (-33.2%) Audio-Flamingo 2 No TTS 0.400 0.500 0.333 0.250 CoT 0.333 (-16.8%) 0.500 (+0.0%) 0.417 (+25.2%) 0.208 (-16.8%) Majority 0.467 (+16.8%) 0.500 (+0.0%) 0.500 (+50.2%) 0.417 (+66.8%) BS-W 0.500 (+25.0%) 0.500 (+0.0%) 0.750 (+125.2%) 0.250 (+0.0%) LLM-Top1 0.667 (+66.8%) 0.500 (+0.0%) 0.833 (+150.2%) 0.583 (+133.2%) LLM-W 0.633 (+58.3%) 0.667 (+33.4%) 0.667 (+100.3%) 0.583 (+133.2%) 图1:数据收集与实验设计] 图1说明:展示了本文设计的三个听觉认知任务流程(从自然声识别到单人说话再到双人重叠语音),以及如何收集人类与模型的回答进行对比评估。 ...

2026-04-29