MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确标注) 通讯作者:未说明(论文中未明确标注) 作者列表:Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao 机构列表:MiniCPM-o Team, OpenBMB(根据署名推断) 💡 毒舌点评 这篇论文真正瞄准了多模态交互范式的“圣杯”——实时全双工,其技术方案完整度和边缘部署效率令人印象深刻,是该方向的一个坚实里程碑。不过,论文对全双工交互的“主动性”和“鲁棒性”的评估相对薄弱,更像是一个高效的技术原型,离真正“类人”的复杂场景交互还有相当距离。 ...