Data-Centric Lessons To Improve Speech-Language Pretraining
📄 Data-Centric Lessons To Improve Speech-Language Pretraining #语音问答 #预训练 #语音大模型 #多模态模型 #数据中心 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者:未明确说明 作者列表:Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评 亮点:论文的实验设计堪称“数据中心”研究范式的典范,通过精心设计的控制变量消融实验(如仅改变交错粒度或采样策略),清晰地量化了每个数据处理步骤的独立贡献,结论扎实可信。短板:所谓的“合成数据集”构建方法(从文本生成问答对再用TTS合成语音)相对基础,未探索利用更先进的端到端语音生成模型或更强的指令遵循能力,其提升可能受限于TTS的自然度和多样性。 ...