Qwen3.5-Omni Technical Report
📄 Qwen3.5-Omni Technical Report #语音合成 #语音识别 #音频大模型 #预训练 #强化学习 🔥 评分:9.5/10 | arxiv 👥 作者与机构 论文作者:Qwen Team (通义千问团队) 核心贡献者:Bing Han, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Jin Xu, Jianxin Yang, Jingren Zhou, Keqin Chen, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zhifang Guo, Zishan Guo, Ziyang Ma 等(按字母顺序排列,*表示通讯作者) 所属机构:根据作者姓名和项目背景推断,主要来自阿里巴巴达摩院(DAMO Academy) 和阿里云。论文未明确标注机构,但“Qwen Team”和“Alibaba Cloud”是明确的线索。 💡 毒舌点评 亮点:这是一份堪称“全模态大模型工程教科书”的技术报告,从架构设计(混合MoE、ARIA)、训练策略(三阶段预训练、四阶段后训练)到评测体系(215个任务)都展现了无与伦比的系统性和工程实力,性能直接对标并超越了Gemini Pro,证明了中国团队在顶级多模态竞赛中的硬实力。 槽点:论文读起来像一份极其详尽的“产品说明书”和“实验报告”,技术细节虽多,但对于“为什么这样设计”的深层科学原理探讨略显不足,更像是在展示“我们做到了”,而非完全解释“我们为何能以及如何想到的”。此外,不开源核心代码和模型,让学术社区只能“望API兴叹”。 ...