Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #语音对话系统, #音频大模型, #多模态模型, #预训练, #流式处理 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:论文以“Qwen Team”署名,未明确列出第一作者。根据贡献者列表排序和惯例,Jin Xu(标注为*)很可能是核心贡献者及通讯作者。 通讯作者:Jin Xu (*) 其他作者:论文列出了大量核心贡献者(Core Contributors)和贡献者(Contributors),均来自阿里巴巴(Alibaba) 的通义千问(Qwen)团队。具体包括:Bin Han, Bowen Xu, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Hao Zhou, Jianxin Yang, Jingren Zhou, Keqin Chen, Lulu Hu, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Shurui Li, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zishan Guo, Zhifang Guo, Ziyang Ma 等。 💡 毒舌点评 亮点:这篇论文堪称“全模态六边形战士”,从音频编码器(AuT)到统一理解的Thinker,再到生成语音的Talker,最后到流式交互的ARIA,形成了一套完整且强大的技术栈,在215个基准上“刷榜”的实力令人印象深刻。 槽点:论文长得像一本小技术手册,信息密度极高,读起来需要耐力;另外,虽然API已开放,但未能开源代码和模型权重,对于学术界的研究复现和深度改进设置了门槛。 ...

2026-04-20