数据中心 | 语音/音乐/音频论文速递

📄 Data-Centric Lessons To Improve Speech-Language Pretraining #语音问答 #预训练 #语音大模型 #多模态模型 #数据中心 🔥 8.0/10 | 前25% | #语音问答 | #预训练 | #语音大模型 #多模态模型学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen) 通讯作者：未明确说明作者列表：Vishaal Udandarao (Apple, University of Cambridge, University of Tübingen), Zhiyun Lu (Apple), Xuankai Chang (Apple), Yongqiang Wang (Apple), Albin Madappally Jose (Apple), Fartash Faghri (Apple), Joshua P Gardner (Apple), Chung-Cheng Chiu (Apple) 💡 毒舌点评亮点：论文的实验设计堪称“数据中心”研究范式的典范，通过精心设计的控制变量消融实验（如仅改变交错粒度或采样策略），清晰地量化了每个数据处理步骤的独立贡献，结论扎实可信。短板：所谓的“合成数据集”构建方法（从文本生成问答对再用TTS合成语音）相对基础，未探索利用更先进的端到端语音生成模型或更强的指令遵循能力，其提升可能受限于TTS的自然度和多样性。 ...