LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech
📄 LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech #基准测试 #数据集 #语音识别 #语音翻译 #多语言 ✅ 7.8/10 | 前25% | #基准测试 | #数据集 | #语音识别 #语音翻译 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fei Yang(上海交通大学;阿里巴巴国际数字商务) 通讯作者:Chenyang Lyu(阿里巴巴国际数字商务) 作者列表: Fei Yang(上海交通大学;阿里巴巴国际数字商务) Xuanfan Ni(阿里巴巴国际数字商务) Renyi Yang(代尔夫特理工大学;阿里巴巴国际数字商务) Jiahui Geng(林雪平大学) Qing Li(格罗宁根大学) Chenyang Lyu(阿里巴巴国际数字商务) Yichao Du(阿里巴巴国际数字商务) Longyue Wang(阿里巴巴国际数字商务) Weihua Luo(阿里巴巴国际数字商务) Kaifu Zhang(阿里巴巴国际数字商务) 💡 毒舌点评 亮点:论文直面语音模型从“短句能手”到“长卷大师”转型过程中的评测荒漠,构建了一个任务全面、数据量级宏大(10万+段,每段约10分钟)的“压力测试场”,其“内容分离”和“时序定位”等任务设计尤其刁钻,能有效暴露模型在长上下文推理上的短板。短板:作为基准,其自身的“创新”更多是工程整合与任务设计,论文对实验结果的剖析深度略显不足(例如,为何某些模型在特定任务上崩溃?),且完全依赖GPT-4作为某些任务的评估器,引入了“用更贵的模型评估便宜的模型”的黑箱与成本问题。 📌 核心摘要 解决问题:现有语音基准测试(如LibriSpeech)主要针对短音频,无法有效评估模型处理真实世界长时音频(如会议、讲座)的能力,特别是在需要跨片段理解、推理和跟踪复杂信息时。 ...