📄 Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training #音频问答 #训练调度 #多任务学习 #音频大模型
✅ 7/10 | 前50% | #音频问答 | #训练调度 | #多任务学习 #音频大模型 | arxiv
学术质量 5.9/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高
👥 作者与机构 第一作者:Yanru Wu(清华大学深圳国际研究生院) 通讯作者:Yang Li(清华大学深圳国际研究生院) 作者列表:Yanru Wu(清华大学深圳国际研究生院)、Jianning Wang(独立研究者)、Chongxin Gan(香港理工大学)、Yang Li(清华大学深圳国际研究生院) 💡 毒舌点评 本文的亮点在于从收敛性角度对多数据集训练的异质性问题进行了清晰的理论刻画,并据此提出了一个逻辑自洽、易于实施的调度框架(GST),实验也验证了其在加速收敛方面的有效性。然而,其理论分析框架的原创性有限(主要借鉴自联邦学习),且实验规模和模型验证(仅基于SALMONN-13B)相对保守,未能充分展示该方法在更大规模、更多架构上的通用性,使其更像是一篇扎实的“工程优化”工作而非领域突破。论文将渐进式策略作为核心实践,但其理论保证与实际实现存在断层,是一个需要正视的弱点。
📌 核心摘要 问题:训练通用音频大语言模型(ALLMs)时,将语音、音乐、环境声等异构数据集混合训练会导致梯度冲突和收敛缓慢,现有方法(如均匀混合)未有效管理这种异质性。 方法核心:提出分组顺序训练(GST)。首先基于梯度亲和度(或任务亲和度)将数据集聚类为“亲和组”,然后按组顺序引入模型进行训练,并采用渐进式(progressive)扩展训练池的策略以平衡稳定性和效率。 新在哪里:与简单并行或顺序训练不同,GST 在理论和实践上提出了一种在二者之间权衡的调度范式。理论部分将联邦学习的收敛分析适配到多数据集场景,并推导出 GST 的收敛界,证明其优于两个极端。实践上,引入了基于梯度的、可在训练循环中动态计算的亲和度指标。 主要结果:在14个AudioQA数据集上的实验表明,在全数据训练设置下,GST变体(如GST-G3)相比标准并行训练(Mix-all)实现了约30-40%的训练时间缩短(从约4天降至约2天),同时保持或略微提升了平均精度(Avg: 75.2% vs Mix-all 74.3%)。在低资源微调设置下,GST保持了与基线相当的性能。 实际意义:提供了一个模型无关的、可插拔的训练调度策略,能直接加速现有ALLM的训练过程,降低计算成本,对大规模多任务音频模型训练具有实用价值。 局限性:验证局限于单一模型架构(SALMONN);理论分析依赖较强的假设(如强凸、有界异质性);亲和度计算需额外开销;渐进式训练的具体调度策略(如顺序、增长率)仍为启发式。 🔗 开源详情 代码:论文中未提及代码链接。论文描述了实验基于SALMONN框架,并提及使用了Singularity容器平台,但未提供作者自己代码仓库的链接。 模型权重:论文中未提及。论文使用SALMONN-13B作为实验平台,但未提供其自身训练产出的模型权重下载链接。 数据集:论文中提及了14个数据集名称,但未提供整合后的下载链接或开源协议信息。数据集包括:AudioCaps, ChimeHome, Clotho, CochlScene, IEMOCAP, Jamendo, MACS, MusicNet, MusicQA, OpenAQA, PromptSpeech, SoundDescs, TextrolSpeech, WavCaps。论文指出这些数据集已统一为AudioQA格式,具体获取方式需参考各数据集原始来源。 Demo:论文中未提及。 复现材料:论文在附录A.3中提供了详细的训练超参数、硬件配置(如4xA100 GPU)和分布式训练设置。未提供训练检查点或具体代码脚本的直接链接。 论文中引用的开源项目: SALMONN: https://github.com/Tmechway/SALMONN Whisper: https://github.com/openai/whisper BEATs: https://github.com/microsoft/unilm/tree/master/beats Vicuna: https://github.com/lm-sys/FastChat LoRA (参数高效微调技术): 论文提到使用LoRA,该技术官方仓库为 https://github.com/microsoft/LoRA CLIP: https://github.com/openai/CLIP LLaMA (论文提及Vicuna基于此): https://github.com/facebookresearch/llama 其他引用的开源工作(如Pengi, Qwen-Audio, Audio Flamingo)在论文中有提及,但未在此提供统一链接。 🏗️ 方法概述和架构 本文提出的核心方法是分组顺序训练(Grouped Sequential Training, GST),它是一个针对ALLM多数据集训练的调度框架,而非一个新的模型架构。整个流程旨在解决数据集异质性带来的梯度冲突问题,通过智能安排训练数据的引入顺序和方式来加速收敛。
...