Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding
📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jieyi Wang (上海AI实验室,北京大学) 通讯作者:Yazhe Niu (CUHK MMLab) 其他作者:Dexuan Xu (北京大学),Zhongyu Wei (复旦大学) 💡 毒舌点评 亮点:论文的“PAUSE” token设计很巧妙,它让模型在遇到听不清、分不清的“声音玄学”时,能先“闭嘴琢磨一下”再回答,模仿了人类“想一想再说”的认知过程,这是对现有音频大模型推理机制的一个有趣补充。槽点:整个框架的“仪式感”太强,从数据构建到两阶段训练再到复杂的奖励函数,工程复杂度拉满,但最终在部分指标上的提升幅度,相对于其付出的计算和开发成本,性价比有待商榷,且PAUSE机制带来的推理延迟是实打实的。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/JOY-SWang/HyPeR。 模型权重:论文中未明确提及是否公开模型权重。 数据集:PAQA数据集已开源,可通过上述GitHub地址获取。 预训练权重:基于Qwen2-Audio-7B-Instruct进行微调。 在线Demo:论文中未提及。 引用的开源项目:依赖Qwen2-Audio、MUSAN数据集、FSD50K数据集、CLAP模型等。 📌 核心摘要 本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发,作者提出了一个感知接地的混合推理框架。首先,他们构建了一个名为PAQA的新数据集,通过层次化解耦策略(区分语音与环境音、分离不同说话人)为模型提供显式的感知推理训练。在此基础上,提出了HyPeR框架,它包含两个阶段:第一阶段通过监督微调让模型学习结构化的显式感知与反思;第二阶段利用基于GRPO的强化学习,并引入特殊的<PAUSE> token来触发隐式潜在推理,以处理难以用语言描述的声学线索。实验表明,HyPeR在多个音频理解基准测试上显著降低了感知错误,性能可与更大规模的模型相媲美,验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟,且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架,整体架构如图1所示。 完整输入输出流程: 输入:原始音频信号 X_a 和文本问题 Q。 第一阶段(显式感知 - SFT):模型(基于Qwen2-Audio-7B-Instruct)被微调以生成结构化的推理链 T。这个过程是自回归的,每一步都依赖于前一步的输出: 规划 (P):基于音频和问题,规划解题逻辑。 描述 (C):提取多层声学特征,包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。 推理 (R):基于P和C进行逐步分析推理。 总结 (S):将推理合成为内部结论。 反思 (R‘):对背景音和说话人进行透明分析,并反思以改进答案。 这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。 过渡门控:在生成显式链后,模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE],则触发“思考-再说话”步骤;若低于 τ_abort,则直接中止轨迹。 第二阶段(隐式推理 - RL): 若触发<PAUSE>,模型生成一个<PAUSE>特殊标记,并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”,它们不输出到最终可见文本,也不参与后续自回归生成的梯度计算,仅用于迭代更新模型的内部隐藏状态 H_t,以进行更深入的音频特征处理。之后,模型恢复生成可见的最终答案。 整个过程由GRPO强化学习优化,奖励函数综合考虑答案准确性、格式合规性、感知一致性(如背景音鲁棒性、说话人-ASR保真度)和长度控制。 关键设计选择理由: ...