机器人控制

📄 End-to-end Listen, Look, Speak and Act #多模态模型 #语音对话系统 #机器人控制 #混合专家 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #混合专家 | #多模态模型 #机器人控制学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang (清华大学), Wenyi Yu (清华大学) (共同第一作者) 通讯作者：Chao Zhang (清华大学) 作者列表：Siyin Wang (清华大学), Wenyi Yu (清华大学), Xianzhao Chen (字节跳动), Xiaohai Tian (字节跳动), Jun Zhang (字节跳动), Lu Lu (字节跳动), Yuxuan Wang (字节跳动), Chao Zhang (清华大学) 💡 毒舌点评这篇论文在架构设计上确实有巧思，将全双工多模态交互与MoE范式结合，实现了首个能“听说读写做”的端到端模型，在模拟环境中的全面表现也很亮眼。但核心实验全在��真环境里打转，离真正理解“人类如何一边聊天一边倒水”还有巨大鸿沟，且其声称的“首个”全双工多模态端到端模型，在缺乏与同期所有相关工作进行系统性对比的情况下，说服力稍显不足。 ...

📄 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation #机器人控制 #多模态交互 #大语言模型 #人机交互 #工业应用 ✅ 7.5/10 | 前25% | #机器人控制 | #多模态交互 | #大语言模型 #人机交互 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Markus Knauer（德国航空航天中心，机器人与机电一体化研究所；慕尼黑工业大学，计算、信息与技术学院）通讯作者：未明确说明作者列表： Markus Knauer（德国航空航天中心；慕尼黑工业大学） Edoardo Fiorini（德国航空航天中心） Maximilian Mühlbauer（德国航空航天中心；慕尼黑工业大学） Stefan Schneyer（德国航空航天中心；慕尼黑工业大学） Promwat Angsuratanawech（德国航空航天中心；慕尼黑工业大学） Florian Samuel Lay（德国航空航天中心） Timo Bachmann（德国航空航天中心） Samuel Bustamante（德国航空航天中心；慕尼黑工业大学） Korbinian Nottensteiner（德国航空航天中心） Freek Stulp（德国航空航天中心） Alin Albu-Schäffer（德国航空航天中心；慕尼黑工业大学） João Silvério（德国航空航天中心） Thomas Eiband（德国航空航天中心） 💡 毒舌点评亮点：该框架的核心价值在于“无缝”和“统一”，通过将物理、语言、图形三种模态的输入最终都转化为对KMP模型的途径点操作，实现了一致的底层适应机制，这种工程上的优雅设计比单纯提出一个新算法更贴近实际部署需求。短板：论文自称“验证了实际应用性”，但全文几乎只有定性描述和展会观察，缺乏关键的定量数据（如任务完成时间缩短百分比、用户偏好统计、与传统示教方法的效率对比），使得“有效性”停留在主观感受层面，说服力打折扣。 ...