Step-Audio-R1.5 Technical Report
📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #基准测试 | arxiv 学术质量 6.2/7 | 选题价值 1.7/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuxin Zhang(StepFun, 上海交通大学) 通讯作者:Fei Tian(StepFun) 作者列表:Yuxin Zhang(StepFun, 上海交通大学), Xiangyu Tony Zhang(新南威尔士大学), Daijiao Liu(StepFun, 新南威尔士大学), Fei Tian(StepFun), Yayue Deng(StepFun), Jun Chen(StepFun), Qingjian Lin(StepFun), Haoyang Zhang(StepFun, 南洋理工大学), Yuxin Li(StepFun, 南洋理工大学), Jinglan Gong(StepFun), Yechang Huang(StepFun), Liang Zhao(StepFun), Chengyuan Yao(StepFun), Hexin Liu(南洋理工大学), Eng Siong Chng(南洋理工大学), Xuerui Yang(StepFun), Gang Yu(StepFun), Xiangyu Zhang(StepFun), Daxin Jiang(StepFun) 💡 毒舌点评 论文精准地指出了当前音频模型训练中“RLVR导致机械感”的核心痛点,并给出了一个优雅且实验验证有效的解决方案(引入RLHF)。但作为一份技术报告,其最大的短板恰恰在于“技术”细节的不透明:训练数据规模与构成、奖励模型的具体架构与训练细节、RLHF阶段的采样与优化超参数等关键复现信息均付之阙如,这与其宣称的“技术报告”定位略有不符,使得外部研究者难以跟进。 ...