英语变体 | 语音/音乐/音频论文速递

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #数据集 #鲁棒性 #英语变体 ✅ 6.5/10 | 前25% | #语音识别 | #基准测试 | #数据集 #鲁棒性 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Eugen Beck（AppTek.ai）通讯作者：未说明作者列表：Eugen Beck（AppTek.ai）、Sarah Beranek（AppTek.ai）、Uma Moothiringote（AppTek.ai）、Daniel Mann（AppTek.ai）、Wilfried Michel（AppTek.ai）、Katie Nguyen（AppTek.ai）、Taylor Tragemann（AppTek.ai） 💡 毒舌点评亮点：这篇论文精准地指出了当前ASR评测的一个核心痛点（用短读音、无口音标注的基准来评估需要处理长对话、多口音的系统），并花大力气构建了一个规模空前、针对性极强的“考卷”，其14种英语变体和128.6小时的体量本身就是一个重要贡献。短板：评测对象完全是“角色扮演”的对话，这虽然比朗读录音更真实，但与真实呼叫中心场景中用户可能存在的高度紧张、方言极重、信号更差等情况仍有差距，其生态效度可以打个问号。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的具体链接。论文评估了多个开源ASR模型，但未提供其下载地址，仅在参考文献中引用了相关工作。数据集：AppTek Call-Center Dialogues 数据集。获取链接：https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议：Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)。协议链接：https://creativecommons.org/licenses/by-sa/4.0/ Demo：论文中未提及。复现材料：论文中未提及具体的训练配置或检查点。但提到了以下评估与归一化材料：论文提供了一个数据集专用的归一化脚本（normalization script），用于在评估前统一处理模型输出，但未提供该脚本的直接链接。论文引用了 Hugging Face OpenASR leaderboard 的评估协议。论文中引用的开源项目： Silero VAD：用于音频分割。链接：https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard：用于定义评分协议。链接：https://huggingface.co/spaces/open_asr_leaderboard OpenAI GPT5.2：用于论文校对。论文引用为 [singh2025openaigpt5card]，未提供直接链接。 gpt-oss-120B：本地用于生成评分归一化映射文件和验证拼写。论文引用为 [openai2025gptoss120bgptoss20bmodel]，未提供直接链接。补充信息模型架构补充：分析结果中提到“未提出新的模型架构”，这是正确的，但遗漏了论文对所评测的各类ASR系统架构的简要归类与共性说明。论文在引言和基准测试部分指出，所评测的系统（如Parakeet, Canary, Qwen3-ASR, Whisper, Granite等）多为自回归或端到端模型，并严重依赖外部语音活动检测（VAD）或固定分割进行预处理。这一共性是理解为何“分割策略”成为核心评测变量的模型基础，也是论文评估框架设计的动机之一。 ...