Thinking While Listening: Simple Test Time Scaling for Audio Classification
📄 Thinking While Listening: Simple Test Time Scaling for Audio Classification #音频分类 #预训练 #测试时缩放 #大语言模型 #零样本 ✅ 6.5/10 | 前50% | #音频分类 | #测试时缩放 | #预训练 #大语言模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Prateek Verma(斯坦福大学电气工程系) 通讯作者:未说明 作者列表:Prateek Verma(斯坦福大学电气工程系)、Mert Pilanci(斯坦福大学电气工程系) 💡 毒舌点评 本文将LLM领域的“测试时缩放”概念移植到音频分类,思路清晰,用轻量级的GPT-2微调击败百亿参数大模型的结果也颇具启发性。但遗憾的是,论文在方法细节的深度打磨和与最新技术的全面比较上显得有些“想得不够深”,比如缺乏不同音频编码器、不同聚合策略的系统消融,更像是一个概念验证报告而非坚实的技术突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及是否公开了微调后的嵌入矩阵或任何其他模型权重。 数据集:使用了公开数据集ESC-50和FSD-50K,但未提供预处理脚本或划分细节。 Demo:未提及。 复现材料:提供了一些关键超参数(如补丁长度、采样次数范围、训练轮数、学习率),但缺少优化器、批量大小、随机种子、完整配置文件等核心复现信息。 论文中引用的开源项目:引用了AST[17], YAMNet[18], GPT-2[20], AudioSet[21], ESC-50[26], FSD-50K[27]。 📌 核心摘要 问题:论文旨在探索如何将大型语言模型中的“推理”和“测试时缩放”能力引入音频分类任务,在模型权重固定的情况下,仅通过增加推理时的计算来提升性能。 方法核心:提出“边听边想”框架。首先,利用预训练的音频模型(如AST, YAMNet)对输入音频进行补丁级(如500ms)的因果预测,通过多次采样为每个补丁生成一个包含类别和置信度的“推理轨迹”。然后,将这个轨迹输入一个冻结的大语言模型(如GPT-2, GPT-OSS-20B),利用其推理能力聚合轨迹信息,做出最终分类。 与已有方法相比新在哪里:传统音频分类管道(如AST)直接输出单个概率向量。本文方法在推理时构建了动态的、基于证据累积的“推理链”,并将分类任务转化为LLM可以处理的序列推理问题。其创新在于将音频模型的输出(而非原始音频)作为LLM的推理输入,并利用测试时缩放来提升性能。 主要实验结果:在ESC-50数据集(单标签)上,冻结的AST模型通过增加采样轨迹长度(从1到32)并用GPT-2聚合,准确率从79.3%提升至88.3%,接近全量微调的88.8%。在FSD-50K数据集(多标签)上,增加采样轨迹长度同样能持续提升AUC。论文中关键实验结果表格如下: 表1: ESC-50数据集上,基于YAMNet骨干网络,不同采样长度下零样本文本推理模型的准确率对比 ...