Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
📄 Game-Time: Evaluating Temporal Dynamics in Spoken Language Models #基准测试 #模型评估 #语音大模型 #全双工通信 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #模型评估 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai-Wei Chang1(麻省理工学院),En-Pei Hu2(台湾大学) (*表示共同第一作者) 通讯作者:未说明 (论文中未明确标注通讯作者) 作者列表:Kai-Wei Chang (麻省理工学院), En-Pei Hu (台湾大学), Chun-Yi Kuan (台湾大学), Wenze Ren (台湾大学), Wei-Chih Chen (台湾大学), Guan-Ting Lin (台湾大学), Yu Tsao (中央研究院), Shao-Hua Sun (台湾大学), Hung-yi Lee (台湾大学), James Glass (麻省理工学院) 💡 毒舌点评 亮点:选题精准地击中了当前语音对话模型“懂内容,不懂时间”的痛点,并创新性地将儿童语言学习中的“游戏化”概念引入评测框架设计,思路新颖且系统。短板:实验规模(模型数量与评测样本)相对有限,且高度依赖外部工具(如Whisper转录、Gemini作为Judge)进行评估,使得评测流程的自主性与结果的绝对可靠性存在一定折扣。 ...