Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation
📄 Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation #语音识别 #语音翻译 #自回归模型 #多任务学习 #端到端 ✅ 7.0/10 | 前25% | #语音识别 #语音翻译 | #自回归模型 #多任务学习 | #语音识别 #语音翻译 学术质量 0.7/7 | 选题价值 0.75/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories) 通讯作者:未说明 作者列表:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories)、Ryo Masumura(NTT, Inc., Human Informatics Laboratories)、Naoki Makishima(NTT, Inc., Human Informatics Laboratories)、Mana Ihori(NTT, Inc., Human Informatics Laboratories)、Naotaka Kawata(NTT, Inc., Human Informatics Laboratories)、Shota Orihashi(NTT, Inc., Human Informatics Laboratories)、Satoshi Suzuki(NTT, Inc., Human Informatics Laboratories)、Taiga Yamane(NTT, Inc., Human Informatics Laboratories) 💡 毒舌点评 这篇论文的核心贡献是清晰且务实的:将多说话人重叠语音的识别(ASR)和翻译(ST)从两个独立的模型合并为一个联合自回归模型,从而解决了输出时说话人数量不匹配和未对齐的痛点。其序列化输出训练(SOT)的扩展应用自然流畅,实验数据也支撑了方法的有效性。然而,论文最大的短板在于实验部分严重依赖通过混合单人语音合成的“多说话人”数据,这与真实世界中包含回声、不同混响、说话人重叠程度变化的会议或对话场景存在显著差距,削弱了其结论在实际应用中的说服力。 ...