Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation
📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation #音频大模型 #知识蒸馏 #音频问答 #音频场景理解 ✅ 7.0/10 | 前25% | #音频问答 | #知识蒸馏 | #音频大模型 #音频场景理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Runyan Yang、Yuke Si、Yingying Gao(三人并列第一作者,论文中标注† Equal contribution) 通讯作者:Shilei Zhang(论文中标注* Corresponding author) 作者列表:Runyan Yang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yuke Si(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yingying Gao(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Junlan Feng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Chao Deng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Shilei Zhang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室) 💡 毒舌点评 该论文提出的“源维度”与“层维度”双轨蒸馏框架,在理论上为跨模态推理能力的迁移提供了一个清晰且有一定新意的视角,特别是将声学教师作为冻结快照来保持音频能力的做法有巧思。然而,实验规模和范围严重受限,仅在Qwen系列模型的师生配置下进行了验证,缺乏跨架构、跨数据规模的普适性证明,其“统一框架”的宣称说服力因此大打折扣。 ...