End-to-end Listen, Look, Speak and Act
📄 End-to-end Listen, Look, Speak and Act #多模态模型 #语音对话系统 #机器人控制 #混合专家 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #混合专家 | #多模态模型 #机器人控制 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siyin Wang (清华大学), Wenyi Yu (清华大学) (共同第一作者) 通讯作者:Chao Zhang (清华大学) 作者列表:Siyin Wang (清华大学), Wenyi Yu (清华大学), Xianzhao Chen (字节跳动), Xiaohai Tian (字节跳动), Jun Zhang (字节跳动), Lu Lu (字节跳动), Yuxuan Wang (字节跳动), Chao Zhang (清华大学) 💡 毒舌点评 这篇论文在架构设计上确实有巧思,将全双工多模态交互与MoE范式结合,实现了首个能“听说读写做”的端到端模型,在模拟环境中的全面表现也很亮眼。但核心实验全在���真环境里打转,离真正理解“人类如何一边聊天一边倒水”还有巨大鸿沟,且其声称的“首个”全双工多模态端到端模型,在缺乏与同期所有相关工作进行系统性对比的情况下,说服力稍显不足。 ...