Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition
📄 Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition #语音识别 #语音大模型 #端到端 #说话人分离 #说话人日志 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #语音大模型 #说话人分离 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Martin Kocour(Brno University of Technology, Speech@FIT; Filevine, USA) 通讯作者:未说明 作者列表:Martin Kocour(Speech@FIT, Brno University of Technology; Filevine), Martin Karafiat(Speech@FIT, Brno University of Technology), Alexander Polok(Speech@FIT, Brno University of Technology), Dominik Klement(Speech@FIT, Brno University of Technology), Lukáš Burget(Speech@FIT, Brno University of Technology), Jan Černocký(Speech@FIT, Brno University of Technology) 注:所有作者均隶属于Speech@FIT实验室,来自布尔诺理工大学。Martin Kocour同时有Filevine机构隶属。 💡 毒舌点评 这篇工作巧妙地将DiCoW的“分而治之”策略与SOT的“统一步调”理念结合,在完全重叠的合成场景(如Libri3Mix)中取得了显著优势,显示了全局上下文建模的潜力。然而,在复杂的真实会议场景中,其联合解码方式反而被单独解码的基线超越,这暴露出当前架构在处理高度动态和嘈杂的真实对话时,对说话人追踪和上下文利用的鲁棒性仍有不足,算是一个“实验室优等生在真实考试中略显水土不服”的典型案例。 ...