AuRA: Internalizing Audio Understanding into LLMs as LoRA
📄 AuRA: Internalizing Audio Understanding into LLMs as LoRA #语音问答 #参数高效微调 #知识蒸馏 #语音识别 #多模态模型 7.5/10 ✅ 7.5/10 | 前25% | #语音问答 | #参数高效微调 | #知识蒸馏 #语音识别 | arxiv 👥 作者与机构 作者:Bo Cheng, Lei Shi, Zhanyu Ma, Yuan Wu, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He 机构:Meituan, Jilin University 💡 毒舌点评 这篇论文精准地切中了当前语音-LLM集成的一个痛点:要么重(端到端训练),要么慢(级联推理),要么不够紧密(桥接方法)。AuRA提出的“内化”思路确实巧妙,像给LLM装了个隐藏的“语音耳朵”,推理时还能把这个“外挂”拆了,效率拉满。消融实验做得相当扎实,把各组件的作用都讲清楚了。不过,这位“耳朵”目前只能听懂“字面意思”(ASR),对于弦外之音(情感、语调)怕是无能为力,论文也老实承认了。实验范围有点保守,只在英语语音问答上打转,更广泛的语音理解任务(比如情感识别、对话)还没试水,这让“通用音频理解”的宣称稍微打了点折扣。总的来说,是一篇工程实现很扎实、想法很实用的扎实工作,但离“全面理解音频”还差那么一口气。 📌 核心摘要 AuRA 是一种轻量级的语音-LLM适配方法,其核心思想是将音频理解能力“内化”到大语言模型(LLM)的内部。该方法采用教师-学生蒸馏框架:训练时,一个冻结的ASR编码器(教师)与一个插入了LoRA适配器的冻结LLM(学生)并行处理相同的语音输入。通过设计的层间蒸馏损失,将教师模型的中间表示对齐到学生LLM的浅层隐藏状态中。推理时,移除庞大的ASR教师编码器,仅保留轻量的音频嵌入模块和LoRA适配的LLM,从而实现高效的端到端推理。在SDQA和HeySquad基准测试中,AuRA在准确率上超越了级联、适配和大规模端到端基线,同时显著降低了推理延迟和内存占用。 🔗 开源详情 代码:论文中未提供AuRA的官方代码仓库链接。 模型权重: AuRA 模型权重:论文中未提及。 使用的基础模型: Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 和 https://huggingface.co/Qwen/Qwen2.5-3B-Instruct。 Whisper-large-v3: https://huggingface.co/openai/whisper-large-v3。 数据集: HeySquad: https://huggingface.co/datasets/yijingwu/HeySQuAD_human。 SDQA: https://huggingface.co/datasets/WillHeld/SD-QA。 CommonVoice (用于适配训练的语音部分):论文提及使用英文子集,但未提供特定链接。该项目主站为 https://commonvoice.mozilla.org/。 VoRA-TextQA-Mixed (用于适配训练的文本部分):论文未提供链接,仅提及名称。 复现材料:论文附录 A 提供了详细的复现信息,包括训练数据(10K CommonVoice 和 10K VoRA-TextQA-Mixed)、音频预处理方法、LoRA 适配配置(前4层,秩256)、优化器设置(学习率 2e-4,批大小128,训练3个epoch)以及计算资源(8块 NVIDIA H20 GPU 训练约1.5小时)。 论文中引用的开源项目: Whisper: https://github.com/openai/whisper。 Qwen (包括 Qwen2, Qwen2.5, Qwen2.5-Omni): https://github.com/QwenLM/Qwen (具体模型权重见上方模型权重部分)。 BLSP: https://github.com/microsoft/BLSP。 DiVA: https://github.com/declare-lab/DiVA。 Qwen2-Audio: 模型权重链接见上文,论文未提供独立代码库链接。 Qwen2.5-Omni: 模型权重链接见上文,论文未提供独立代码库链接。 CommonVoice: https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 AuRA 的整体架构遵循教师-学生蒸馏范式(如图2所示),旨在将ASR教师的能力转移到LLM学生中,并在推理时移除教师。其核心流程包含三个关键组件:音频补丁嵌入、LoRA适配的LLM学生以及层间蒸馏机制。 ...