Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training

📄 Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training #音频大模型 #音频问答 #多任务学习 #梯度分析 #训练调度 #分组顺序训练 #收敛分析 ✅ 7.0/10 | 前25% | #音频问答 | #训练调度 | #音频大模型 #多任务学习 | arxiv 学术质量 4.9/7 | 影响力 1.5/2 | 可复现性 0.6/2 | 置信度 高 👥 作者与机构 第一作者:Yanru Wu(深圳国际研究生院,清华大学) 通讯作者:Yang Li(深圳国际研究生院,清华大学) 作者列表:Yanru Wu(深圳国际研究生院,清华大学)、Jianning Wang(独立研究者)、Chongxin Gan(香港理工大学)、Yang Li(深圳国际研究生院,清华大学) 💡 毒舌点评 本文亮点在于为ALLM多数据集训练中被忽视的“数据集异质性”问题提供了扎实的理论分析框架(将联邦学习的收敛分析适配到多数据集场景)和实用的工程解决方案(分组顺序训练GST),在14个数据集上实现了30-40%的收敛加速且性能持平,工程价值明确。短板在于:1)理论部分推导了紧的界,但关键异质性常数β和ζ难以估计,削弱了理论的实践指导性;2)实际采用的“渐进式训练”是对理论上严格顺序训练的近似,缺乏相应的理论保证;3)实验仅在一个模型架构(SALMONN-13B)上验证,泛化性存疑;4)方法的核心依赖于初始梯度的离线计算,未探讨动态更新的可能性。 📌 核心摘要 本文针对训练通用音频大语言模型(ALLM)时因多数据集异质性(领域、标注风格差异)导致梯度冲突、收敛缓慢的问题,提出了一种名为“分组顺序训练”(Grouped Sequential Training, GST)的调度框架。 问题:现有ALLM训练普遍采用均匀混合数据(Mix-all),忽略了数据集间的异质性,导致梯度冲突和优化效率低下。 方法核心:GST包含两个关键步骤:1)基于梯度亲和性对数据集聚类分组,以最小化组内异质性;2)采用渐进式调度策略,按组顺序逐步将数据集并入训练池。该方法旨在平衡并行训练(稳定但受异质性拖累)与顺序训练(高效但易遗忘)的优缺点。 新意:从收敛理论角度系统分析了并行、顺序及分组顺序训练的权衡,并将多任务学习中的数据集关系分析从训练后的评估转变为训练循环设计的核心依据。 主要结果:在基于SALMONN-13B模型的14个AudioQA数据集实验中,GST变体(如GST-G3)相比标准并行训练(Mix-all),在完整数据训练中实现了30-40%的收敛加速(从约4天降至约2天),同时保持或略微提升了平均准确率(例如GST-G3加权平均准确率75.0% vs. Mix-all 74.2%)。在低资源微调设置下,GST保持了与Mix-all相当的性能。 实际意义:为大规模ALLM训练提供了一种模型无关、易于部署的高效调度策略,可显著减少计算成本。 主要局限:理论分析中异质性常数β、ζ的实际意义和估计方法未明确;渐进式训练作为严格顺序训练的近似,其理论保证缺失;实验仅在单一架构上验证。 方法 设置 训练时长 (𝒯.ℰ.) 平均准确率 (Avg) 加权平均准确率 (W.Avg) Mix-all 完整数据 ~4d 74.3% 74.2% GST-T2 完整数据 ~2d 75.4% 74.5% GST-G3 完整数据 ~2d 75.2% 75.0% GST-G2 完整数据 ~2d 74.7% 74.6% Sequential 完整数据 ~7d 48.6% 54.3% Mix-all 低资源 ~0.5d 68.7% 63.9% GST-T2 低资源 ~0.5d 69.0% 64.7% GST-G3 低资源 ~1d 69.1% 63.4% GST-G2 低资源 ~0.5d 68.7% 63.5% 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提供模型权重的具体链接。文中提到实验基于开源的SALMONN-13B框架,但未给出其权重获取地址。 数据集:论文中列出了14个AudioQA数据集的名称,但未提供这些数据集的具体下载链接或统一的项目主页。 Demo:论文中未提及。 复现材料:论文在附录A.3中详细提供了训练设置(包括模型架构、优化参数、硬件配置等),但未提供预训练检查点、训练日志等具体的复现材料链接。 论文中引用的开源项目: SALMONN:论文中提及,但未提供其代码或模型仓库链接。 Vicuna:论文中提及,但未提供其代码或模型仓库链接。 LoRA:论文中提及,但未提供其代码或模型仓库链接。 AdamW:论文中提及,但未提供其代码链接。 Whisper:论文中提及,但未提供其代码或模型链接。 BEATs:论文中提及,但未提供其代码或模型链接。 🏗️ 方法概述和架构 本文提出的方法是一个针对多数据集训练优化的调度框架(GST),其核心是一个两阶段流程:离线的数据集聚类分组阶段和在线的渐进式训练执行阶段。该框架旨在修改数据输入模型的顺序与组合方式,而非改变模型本身的结构。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 418 words