Equipping Large Language Model with Directional Speech Understanding Capabilities
📄 Equipping Large Language Model with Directional Speech Understanding Capabilities #语音识别 #语音翻译 #语音分离 #波束成形 #大语言模型 #流式处理 ✅ 7.0/10 | 前50% | #语音识别 #语音翻译 | #语音分离 #波束成形 | #语音识别 #语音翻译 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ju Lin(Meta, USA) 通讯作者:未说明(论文中未明确标注) 作者列表:Ju Lin(Meta, USA)、Jing Pan(Meta, USA)、Ruizhi Li(Meta, USA)、Ming Sun(Meta, USA)、Yuzong Liu(Meta, USA)、Alaa Hassan(Meta, USA)、Jing Zheng(Meta, USA)、Florian Metze(Meta, USA) 💡 毒舌点评 亮点:论文精准聚焦于智能眼镜“听清特定人”的刚需,提出了从系统架构(级联/端到端)到流式推理的全套解决方案,实验设计也比较全面,覆盖了分离、识别、翻译三个环节。短板:所有实验都在模拟数据上“闭卷考试”,缺乏真实世界复杂声学环境的“开卷考验”,这让人对其宣称的“鲁棒性”和实际落地能力打上一个问号;此外,端到端SOT方案在部分任务上不如传统的级联方案,显示出“大而全”未必总是最优解。 📌 核心摘要 这篇论文旨在解决基于大语言模型(LLM)的语音系统在智能眼镜场景中面临的挑战:现有模型多为单通道、单说话人设计,难以处理多麦克风阵列录制的、包含佩戴者(近场)和对话者(远场)的定向多人语音。 论文提出了两种将方向性理解能力集成到LLM中的新方法:1) 级联系统:先利用基于编码器-解码器架构的流式语音分离模型分离佩戴者和对话者的语音,再通过比较RMS比值判断说话人身份,最后将参考通道音频连同任务提示输入LLM;2) 端到端系统:采用序列化输出训练(SOT)策略,直接对LLM进行微调,使其能够处理经非线性约束最小方差(NLCMV)波束成形增强后的单通道音频,并同时输出带说话人标签的识别与翻译结果。两种方法都利用了LoRA进行高效微调,并实现了600毫秒分块的流式推理。 ...