Native Active Perception as Reasoning for Omni-Modal Understanding
📄 Native Active Perception as Reasoning for Omni-Modal Understanding #强化学习 #多模态模型 #Transformer #大语言模型 #计算机视觉 #语音识别 9.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #语音识别 | #强化学习 | #多模态模型 #Transformer | arxiv 👥 作者与机构 Zhenghao Xing (香港中文大学), Ruiyang Xu (香港中文大学), Yuxuan Wang (香港中文大学), Jinzheng He (香港中文大学), Ziyang Ma (香港中文大学), Qize Yang (香港中文大学), Yunfei Chu (阿里巴巴Qwen团队), Jin Xu (阿里巴巴Qwen团队), Junyang Lin (阿里巴巴Qwen团队), Chi-Wing Fu (香港中文大学), Pheng-Ann Heng (香港中文大学)。注:论文首页标注了香港中文大学、上海交通大学、阿里巴巴Qwen团队和南洋理工大学。 ...