Advancing LLM-Based Multi-Channel Multi-Speaker Speech Recognition with Global Cross-Channel Attention and Sentence-Ordered First-In First-Out Serialized Output Training
📄 Advancing LLM-Based Multi-Channel Multi-Speaker Speech Recognition with Global Cross-Channel Attention and Sentence-Ordered First-In First-Out Serialized Output Training #语音识别 #语音大模型 #多通道 #预训练 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #语音大模型 | #多通道 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Genshun Wan(中国科学技术大学 & 科大讯飞研究院) 通讯作者:Jia Pan(科大讯飞研究院) 作者列表:Genshun Wan (中国科学技术大学 & 科大讯飞研究院),Lijuan Liu (中国科学技术大学 & 科大讯飞研究院),Changfeng Xi (科大讯飞研究院),Hang Chen (中国科学技术大学),Xindi Yu (科大讯飞研究院),Jia Pan (科大讯飞研究院),Jun Du (中国科学技术大学),Zhongfu Ye (中国科学技术大学) 💡 毒舌点评 亮点: 论文首次将大语言模型(LLM)系统性地引入多通道多说话人语音识别,并针对该任务的独特性(如说话人顺序、多通道输入)设计了“句子有序FIFO SOT”和“全局跨通道注意力(GCCA)”两个关键组件,实现了从基线到最终系统CER超过55%(重叠)的大幅性能飞跃。 短板: 整个评估完全基于未公开的内部会议数据集,缺乏在学术界公认的公开多通道基准上的验证,这使得其宣称的“强泛化性”说服力大打折扣,也让其他研究者难以复现和比较,显著降低了论文的公共价值。 ...