📄 Qwen3.5-Omni Technical Report
#多模态模型 #语音对话系统 #多语言 #语音合成
🔥 8.5/10 | 前25% | #语音对话系统 | #多模态模型 | #多语言 #语音合成 | arxiv
学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度 中
👥 作者与机构
- 第一作者:未说明
- 通讯作者:未说明
- 作者列表:
- Bing Han (未说明)
- Baosong Yang (未说明)
- Bin Zhang (未说明)
- Bo Zheng (未说明)
- Dayiheng Liu (未说明)
- Fan Zhou (未说明)
- Hongkun Hao (未说明)
- Hangrui Hu (未说明)
- Jin Xu (未说明)
- Jianxin Yang (未说明)
- Jingren Zhou (未说明)
- Keqin Chen (未说明)
- Le Yu (未说明)
- Mingkun Yang (未说明)
- Peng Wang (未说明)
- Pei Zhang (未说明)
- Qize Yang (未说明)
- Rui Men (未说明)
- Ruiyang Xu (未说明)
- Shuai Bai (未说明)
- Sibo Song (未说明)
- Ting He (未说明)
- Xize Cheng (未说明)
- Xingzhang Ren (未说明)
- Xian Shi (未说明)
- Xiong Wang (未说明)
- Xinyu Zhang (未说明)
- Xinfa Zhu (未说明)
- Yunfei Chu (未说明)
- Yuanjun Lv (未说明)
- Yuchong Sun (未说明)
- Yongqi Wang (未说明)
- Yuxuan Wang (未说明)
- Yang Zhang (未说明)
- Zhifang Guo (未说明)
- Zishan Guo (未说明)
- Ziyang Ma (未说明)
- (以及数十位贡献者,论文中未提供其具体机构信息)
💡 毒舌点评
亮点:工程整合能力极强,在215个涵盖理解、推理和交互的音频/音视觉基准上全面达到SOTA,尤其在语音对话和多语言识别上超越了Gemini-3.1 Pro,展现了扎实的“刷榜”实力。短板:作为技术报告,其创新性主要体现在将现有技术(MoE、ARIA、长上下文)进行大规模组合与优化,而非提出颠覆性的新范式,读起来更像一份详尽的“产品说明书”而非“科学发现”。
📌 核心摘要
这篇论文介绍了Qwen3.5-Omni,一个支持文本、图像、音频和音频-视频输入的全模态大语言模型。为解决现有模型在实时交互、跨模态推理和工具使用上的不足,其核心方法是采用“Thinker-Talker”架构,并引入混合专家(MoE)设计以提升效率。与前代相比,主要创新在于:1)模型规模扩展至数千亿参数并支持256k超长上下文;2)提出ARIA技术,动态对齐文本与语音token,显著提升了流式语音生成的稳定性和自然度;3)扩展了多语言支持(113种语言识别,36种语言合成)。实验结果显示,Qwen3.5-Omni-Plus在215个音频和音视觉基准上达到SOTA,在语音对话等关键任务上超越了Gemini-3.1 Pro。该工作为构建能够实时感知、推理、生成和行动的全模态智能体提供了坚实基础。主要局限在于论文作为技术报告,对部分训练细节(如具体损失函数、超参数)描述有限,且未开源模型权重和代码,限制了学术界的复现与深入研究。
🏗️ 模型架构
Qwen3.5-Omni采用“Thinker-Talker”双组件架构。
- Thinker(思考者):负责多模态理解与文本生成。它接收并处理所有输入模态:
- 文本输入:使用Qwen3.5分词器(250k词表)。
- 音频输入:经重采样后,由**音频Transformer(AuT)**编码器处理。AuT是一个从头训练的Transformer编码器,包含4个下采样Conv2D块和32个自注意力层,将128维梅尔频谱图转换为6.25Hz的音频token序列。
- 视觉输入:由来自Qwen3.5的视觉编码器处理,支持图像和视频。
- 时间对齐:采用显式时间戳(以秒为单位的文本字符串)为每个视频或音频-视频时间块添加前缀,取代了传统的TM-RoPE,以更自然地学习时间表示并支持任意时长的流式输入。不同模态的表示通过连续的、基于绝对时间的时间戳ID进行对齐。
- 骨干网络:Thinker本身采用混合注意力MoE架构,结合了标准注意力和**门控Delta网络(GDN)**模块,后者特别擅长高效建模长序列,减少了长上下文推理时的KV缓存开销,从而提升吞吐量和并发服务能力。
- Talker(讲述者):负责基于上下文生成语音。它以Thinker的文本输出和多模态表示为条件,直接生成**残差量化(RVQ)语音token。Talker同样采用混合MoE架构,并引入多token预测(MTP)**模块来建模残差码本。生成的多码本token通过一个因果、流式的ConvNet解码器转换为波形。
- ARIA(自适应速率交错对齐):这是Talker的关键创新。它将传统的双通道(文本和语音并行生成)生成范式统一为单流交错生成。ARIA强制执行一个自适应速率约束:在生成的任何前缀中,累积的语音token与文本token的比率不得超过对应的全局比率。这解决了因文本和语音分词器编码效率不匹配导致的跳字、发音错误等问题,显著提升了流式对话语音的稳定性和韵律自然度,同时保持了低延迟。
- 流式与并发设计:Thinker和Talker均支持分块预填充(chunked prefilling),以降低首token延迟。表格1显示,Flash版音频输入首包延迟为235ms,Plus版为435ms。
💡 核心创新点
- 大规模全模态统一与高效推理架构:将Thinker和Talker均升级为混合注意力MoE架构。这不仅提升了模型容量,更通过GDN模块显著降低了长音频-视频序列建模的计算和内存开销,使得在256k上下文长度下进行高效推理成为可能。
- ARIA:解决流式语音生成对齐难题:提出自适应速率交错对齐技术,从设计上解决了文本和语音token生成速率不匹配的根本问题。相比之前依赖外部对齐工具(如MFA)或固定交错率的方法,ARIA更灵活、鲁棒,且能自然支持任意语言和低编码效率的语言,是提升对话式语音生成质量的关键。
- 显式时间戳建模:放弃直接使用TM-RoPE进行绝对时间编码,改为在模态token前添加格式化的文本时间戳。这使模型能更自然地学习时间码表示,避免了长视频中时间位置ID过于稀疏的问题,并增强了跨模态时间对齐的鲁棒性。
- 超大规模多语言与多方言支持:将语音识别扩展至113种语言和方言(包括39种中文方言),语音合成扩展至36种语言(包括7种中文方言),并展示了在跨语言语音克隆上的强大能力。
- 全模态智能体能力涌现:模型不仅能理解,还能行动,例如自主调用WebSearch、执行复杂函数调用,甚至出现了“音视频代码生成”(Audio-Visual Vibe Coding)这一新能力,即直接根据音视频指令生成可执行代码。
🔬 细节详述
- 训练数据:预训练使用了异构的文本-视觉对和超过1亿小时的音视频内容。具体数据分布:文本0.92万亿token,音频1.99万亿token,图像0.95万亿token,视频0.14万亿token,视频-音频0.29万亿token。Talker预训练使用了超过2000万小时的多语言语音数据。
- 训练策略:预训练分为三个阶段:1)编码器对齐阶段(S1):冻结LLM参数,分别训练视觉和音频编码器及其适配器;2)通用阶段(S2):解冻所有参数,在大规模多模态数据上训练,序列长度32,768;3)长上下文阶段(S3):将最大序列长度提升至262,144,并增加长音频和长视频数据比例。后训练(Post-training)分为Thinker的三阶段(专家蒸馏、在策略蒸馏、交互对齐RL)和Talker的四阶段(通用、长上下文、RL、说话人微调)。
- 关键超参数:模型规模达数千亿参数(具体数字未说明)。上下文长度256k。音频编码器输出帧率6.25Hz(每帧约160ms)。文本分词器词表大小250k。
- 训练硬件:论文中未提及。
- 推理细节:采用流式生成。Talker使用MTP模块预测RVQ token,再由因果ConvNet解码。解码策略、温度等超参数未说明。
- 正则化/稳定技巧:在Talker训练中,使用了基于规则的奖励和GSPO来提高训练稳定性。
📊 实验结果
- 总体性能:Qwen3.5-Omni-Plus在215个音频和音视觉基准上达到SOTA,在音频理解、推理、识别、翻译和对话等关键任务上超越了Gemini-3.1 Pro。
- 音频理解(Audio → Text):在MMAU(82.2)、MMSU(82.8)、RUL-MuchoMusic(72.4)等基准上超越Gemini-3.1 Pro。在语音对话基准VoiceBench上达到93.1分,显著优于Gemini-3.1 Pro的88.9分。
- 语音识别(ASR):在Fleurs(top60)上WER为6.55%,优于Gemini-3.1 Pro的7.32%。在粤语、日语、韩语等复杂语言上优势明显。
- 语音生成(X → Speech):
- 零样本TTS:在SEED-TTS基准上,WER在中文和英文上分别达到0.99和1.26,优于多数对比系统。
- 多语言生成:在29种语言中,有22种语言的内容一致性(WER)最佳,说话人相似度也普遍领先。
- 跨语言生成:在12个跨语言方向中的10个达到最佳性能,例如中→韩WER从CosyVoice3的14.4降至4.03。
- 定制语音生成:在仅单语数据微调的情况下,展示了强大的跨语言泛化能力,在10种语言上WER最佳。
- 音视频理解:在DailyOmni(84.6)、Qualcomm IVD(68.5)等基准上表现优异。
- 文本/视觉能力保持:与同规模的纯文本模型Qwen3.5-Plus-Instruct相比,在文本和视觉基准上性能相当或更优,证明了全模态训练未损害单模态能力。
⚖️ 评分理由
- 学术质量:6.5/7:论文系统性强,实验极其全面(215个基准),数据规模宏大(1亿小时音视频),技术整合度高,结果令人信服。主要扣分点在于其核心创新(如ARIA、时间戳建模)更多是针对具体工程问题的优化,而非提出全新的理论或模型范式。
- 选题价值:1.8/2:全模态智能体是AI发展的必然方向,该论文的工作直接推动了实时、交互式、可行动的全模态模型的发展,对学术界和工业界均有重要参考价值,与音频/语音研究高度相关。
- 开源与复现加成:0.0/1:论文仅提供API访问,未开源模型权重、代码或关键训练细节(如具体损失函数公式、完整超参数配置),使得学术界难以复现其核心工作,因此无加成。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文提到模型可通过API访问(链接:https://www.alibabacloud.com/help/en/model-studio/qwen-omni),但未提及是否开源模型权重供下载。
- 数据集:未提及。
- Demo:未提及。
- 复现材料:论文提供了一些训练阶段的描述和评估结果,但未给出足以完全复现模型训练的超参数、数据处理细节或检查点。
- 论文中引用的开源项目:未在提供的文本中明确列出依赖的开源项目。
🖼️ 图片与表格
- 图片保留建议:
- 图1(推测为架构图): 内容描述:展示了AuT(音频Transformer)的编码器-解码器结构,包括FBank特征输入、下采样卷积、自注意力层,以及文本输入输出流程。 | 保留: 是 - 理由:这是理解音频编码器核心组件的关键架构图,直观展示了音频处理的流程。
- 关键实验表格复述:
- 表5(音频理解与对话):对比了Qwen3.5-Omni与Gemini-3.1 Pro。例如,在VoiceBench上,Qwen3.5-Omni-Plus得分为93.1,Gemini-3.1 Pro为88.9。在Fleurs ASR(top60)上,Qwen3.5-Omni-Plus WER为6.55%,Gemini-3.1 Pro为7.32%。
- 表8(零样本TTS):在SEED-TTS基准上,Qwen3.5-Omni-Plus的中文WER为0.99,英文WER为1.26,均优于表中的多数对比系统(如Seed-TTS RL的1.00/1.94,CosyVoice 3的0.71/1.45)。
- 表11(跨语言语音生成):在中→韩方向,Qwen3.5-Omni-Plus的WER为4.03,显著低于CosyVoice3的14.4。
- 表12(定制语音生成):在29种语言中,Qwen3.5-Omni-Plus在10种语言上WER最佳,例如日语(3.306)和韩语(1.309)。
- 分析受限说明:当前输入仅包含一张图片(AuT架构图),其他表格以文本形式嵌入在论文正文中。分析主要基于文本描述的表格数据。
📸 论文图片


