Step-Audio-R1.5 Technical Report
📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #预训练 #基准测试 ✅ 7.5/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yuxin Zhang(StepFun;上海交通大学;Nanyang Technological University) 通讯作者:Fei Tian(StepFun;邮箱:tianfei@stepfun.com) 作者列表:Yuxin Zhang(StepFun,上海交通大学,Nanyang Technological University),Xiangyu Tony Zhang(University of New South Wales),Daijiao Liu(StepFun,University of New South Wales),Fei Tian(StepFun),Yayue Deng(StepFun),Jun Chen(StepFun),Qingjian Lin(StepFun),Haoyang Zhang(StepFun,Nanyang Technological University),Yuxin Li(StepFun,Nanyang Technological University),Jinglan Gong(StepFun),Yechang Huang(StepFun),Liang Zhao(StepFun),Chengyuan Yao(StepFun),Hexin Liu(Nanyang Technological University),Eng Siong Chng(Nanyang Technological University),Xuerui Yang(StepFun),Gang Yu(StepFun),Xiangyu Zhang(StepFun),Daxin Jiang(StepFun) 💡 毒舌点评 这篇论文敏锐地指出了当前音频推理模型训练中“为答对而答”的机械感问题,并提出了一个颇具潜力的解决方案(RLHF),实验也显示其对话能力有显著提升。然而,模型在最能体现交互能力的AudioMC基准上得分(41.15)仍落后于Gemini 3系列,且核心的“评分标准奖励模型”的具体实现和训练数据细节未在文中公开,这让其宣称的“突破”打了折扣,更像是一个工程改进而非范式革新。 ...