📄 Qwen3.5-Omni Technical Report
#语音合成 #语音识别 #音频大模型 #预训练 #强化学习
🔥 评分:9.5/10 | arxiv
👥 作者与机构
- 论文作者:Qwen Team (通义千问团队)
- 核心贡献者:Bing Han, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Jin Xu, Jianxin Yang, Jingren Zhou, Keqin Chen, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zhifang Guo, Zishan Guo, Ziyang Ma 等(按字母顺序排列,*表示通讯作者)
- 所属机构:根据作者姓名和项目背景推断,主要来自阿里巴巴达摩院(DAMO Academy) 和阿里云。论文未明确标注机构,但“Qwen Team”和“Alibaba Cloud”是明确的线索。
💡 毒舌点评
亮点:这是一份堪称“全模态大模型工程教科书”的技术报告,从架构设计(混合MoE、ARIA)、训练策略(三阶段预训练、四阶段后训练)到评测体系(215个任务)都展现了无与伦比的系统性和工程实力,性能直接对标并超越了Gemini Pro,证明了中国团队在顶级多模态竞赛中的硬实力。 槽点:论文读起来像一份极其详尽的“产品说明书”和“实验报告”,技术细节虽多,但对于“为什么这样设计”的深层科学原理探讨略显不足,更像是在展示“我们做到了”,而非完全解释“我们为何能以及如何想到的”。此外,不开源核心代码和模型,让学术社区只能“望API兴叹”。
📌 核心摘要
这篇技术报告全面介绍了Qwen3.5-Omni,一个能够统一理解与生成文本、图像、音频和音视频内容的全模态大语言模型。要解决的问题是现有模型在实时交互、跨模态推理和自主智能体行为方面的局限性。采用的方法是基于“思考者-说话者”架构,引入了多项关键创新:1)思考者和说话者均采用混合注意力专家混合模型以实现高效长序列推理;2)提出自适应速率交错对齐(ARIA)技术,动态对齐文本和语音单元,解决流式语音合成的不稳定问题;3)将时间位置编码改进为显式文本时间戳,提升长音视频的时序感知;4)采用三阶段预训练和四阶段后训练策略,包括专家蒸馏、同策略蒸馏和交互对齐强化学习。取得的效果是在215个音频和音视频基准测试上达到SOTA,在关键音频理解、识别和翻译任务上超越Gemini-3.1 Pro,并展现出可控音视频描述、实时语音交互和音视频代码生成(Audio-Visual Vibe Coding)等新能力。局限性在于模型规模巨大(数千亿参数),计算资源要求高,且未开源核心模型与代码。
🏗️ 模型架构
Qwen3.5-Omni采用Thinker-Talker双模块架构,实现从多模态输入到文本与语音输出的端到端处理。
完整输入输出流程:
- 输入:文本、音频、图像、视频(无声)或音视频流。
- 编码:
- 文本:使用Qwen3.5分词器(250k词表)转换为文本Token。
- 音频:重采样至16kHz,转换为128维梅尔频谱图,通过**音频Transformer(AuT)**编码器(32层自注意力+4层下采样Conv2D)下采样16倍,输出6.25Hz的音频Token。
- 视觉:使用Qwen3.5的视觉编码器(SigLIP2)处理图像/视频帧。
- 统一表征与对齐:Thinker将各模态的表征通过显式文本时间戳(如“[00:15.30]”)进行对齐和拼接,形成统一的多模态序列。时间戳策略替代了TM-RoPE,避免了长序列下位置ID稀疏的问题。
- 思考者(Thinker):一个混合注意力MoE大语言模型。它接收统一的多模态序列,进行理解、推理,并生成文本响应Token。其核心是**Gated Delta Net(GDN)**模块,能高效处理长序列,减少KV缓存开销。
- 说话者(Talker):另一个混合注意力MoE模型。它以Thinker生成的文本Token、历史上下文和多模态表征为条件,直接预测RVQ(残差矢量量化)语音编解码Token(多码本)。
- 语音生成:Talker预测的RVQ Token通过一个轻量级的多Token预测(MTP)模块和因果卷积网络(Code2wav) 解码,实时合成为音频波形。
关键设计选择理由:
- 混合MoE:在扩大模型规模(数千亿参数)的同时,保持推理效率,平衡容量与计算成本。
- ARIA:解决文本与语音Token化速率不匹配导致的流式合成卡顿、跳字问题。它强制执行一个自适应速率约束,使得生成的语音Token与文本Token的累积比例不超过全局比例,从而实现更自然、稳定的交错生成。
- 显式时间戳:比绝对位置编码更直观、鲁棒,尤其适用于变帧率、长时程的音视频输入,降低了数据构建成本。
💡 核心创新点
自适应速率交错对齐(ARIA):
- 是什么:一种在流式语音生成中动态对齐文本与语音Token的解码策略。
- 之前方法:Qwen3-Omni采用双通道生成,依赖外部对齐工具(如MFA)或固定交错率,导致不稳定和延迟。
- 如何解决:将双通道统一为单通道��错流,并施加“前缀约束”:对于生成序列的任意前缀,其语音Token与文本Token的累计比率不得超过全局真实比率。这自然支持任意文本前缀后接流畅的语音续写。
- 效果:显著提升流式对话语音的稳定性、自然度和韵律,减少跳字、误读,且对延迟影响极小。
混合注意力专家混合(MoE)架构:
- 是什么:Thinker和Talker均采用结合了Gated Delta Net(GDN)的混合MoE Transformer。
- 之前方法:标准Transformer在处理超长音视频上下文(256k tokens)时,KV缓存和计算开销巨大。
- 如何解决:MoE让模型在推理时仅激活部分专家,GDN则是一种高效的线性注意力变体,特别擅长建模长序列依赖,大幅降低I/O和计算负载。
- 效果:支持超过10小时音频或400秒720P视频的高效推理,提高了服务并发能力。
显式时间戳对齐机制:
- 是什么:在音视频时间 patch 前插入格式化的秒级文本时间戳(如“[00:03.25]”)。
- 之前方法:使用TM-RoPE等连续时间位置编码,对于长视频会导致位置ID过于稀疏,且要求训练数据帧率均匀。
- 如何解决:将时间信息转化为模型可直接理解的文本符号,更自然地学习时间码表示,并对音频序列随机插入时间戳以增强跨模态对齐。
- 效果:在长上下文多模态输入中实现更精确、鲁棒的时序感知和同步。
全模态智能体行为与涌现能力:
- 是什么:模型不仅能理解与生成,还能自主调用工具(WebSearch, FunctionCall)并执行音视频代码生成(Audio-Visual Vibe Coding)。
- 之前方法:多数模型停留在被动感知-响应模式,缺乏主动工具使用和跨模态代码生成能力。
- 如何解决:通过大规模多模态预训练和包含智能体任务的后训练强化学习。
- 效果:模型能直接根据音视频指令生成可执行代码,实现了从感知到行动的闭环,是全模态模型的新能力涌现。
🔬 细节详述
- 训练数据:
- 预训练:总计约4万亿Token。文本0.92万亿,音频1.99万亿,图像0.95万亿,视频0.14万亿,视频-音频0.29万亿。音频数据超过1亿小时,由Qwen3-ASR生成。
- 音频编码器(AuT)训练:使用了4000万小时的音频-文本对数据。
- 语言支持:文本201种语言/方言;语音输入113种(74种语言+39种中国方言);语音输出36种(29种语言+7种中国方言)。
- 训练策略:
- 预训练三阶段:
- 编码器对齐(S1):固定LLM(Qwen3.5),分别训练视觉和音频编码器及其适配器。
- 通用阶段(S2):解冻所有参数,在32k序列长度下进行全模态训练。
- 长上下文阶段(S3):将序列长度提升至256k,增加长音视频数据比例。
- 后训练(Thinker)三阶段:
- 专家蒸馏:训练文本、视觉、音频等领域的专家模型,再将其能力蒸馏到统一模型。
- 同策略蒸馏(OPD):将模型在文本输入下的高质量响应,作为对应音频输入查询的蒸馏目标,对齐跨模态输出质量。
- 交互对齐强化学习(RL):构建多轮交互轨迹,针对语言切换、人设不一致等问题优化奖励信号。
- 后训练(Talker)四阶段:通用预训练 -> 长上下文持续预训练 -> DPO/GSPO强化学习 -> 轻量级说话人微调。
- 预训练三阶段:
- 关键超参数:未详细列出学习率、batch size等具体数值。但提及了动态注意力窗口训练、最大上下文长度256k tokens、RVQ多码本表示等。
- 推理细节:
- 流式处理:Thinker和Talker均支持分块预填充(Chunked Prefilling)。
- 延迟数据(见Table 2):Qwen3.5-Omni-Plus在1路并发下,音频输入首包延迟435ms,视频输入651ms;生成实时率(RTF)低至0.187,确保流畅生成。
- 部署优化:使用vLLM,对MTP模块和Codec解码器启用
torch.compile和CUDA Graph加速。
📊 实验结果
主要指标对比:
1. 音频理解(X->Text):
- 超越Gemini-3.1 Pro:在MMAU(82.2 vs 81.1)、MMSU(82.8 vs 81.3)、RUL-MuchoMusic(72.4 vs 59.6)、SongFormBench等多个音频理解基准上取得SOTA。
- 语音对话:在VoiceBench上大幅领先(93.1 vs 88.9)。
- 语音识别(ASR):在FLEURS(60种语言)上平均词错率(WER)为6.55%,优于Gemini-3.1 Pro(7.32%)。在中文方言(如粤语WER 2.2%)、歌唱语音(MIR-1K WER 4.56%)上表现突出。
- 语音翻译(S2TT):在FLEURS 59种语言互译上,xx↔zh/en平均BLEU达32.8,优于Gemini-3.1 Pro(32.1)。
2. 音视频理解:
- 文本查询:在DailyOmni(84.6 vs 82.7)、AVUT(85.0 vs 85.6)上持平或超越Gemini-3.1 Pro。
- 音频查询:在Qualcomm IVD上取得68.5分,超越Gemini-3.1 Pro(66.2)。
- 音视频描述:在Omni-Cloze上达到64.8分。
3. 语音生成(X->Speech):
- 零样本TTS:在SEED测试集上,内容一致性(WER)为1.26(test-en),优于众多专业TTS系统(如CosyVoice 3的1.45)。
- 多语言生成:在29种语言的测试中,22种语言的WER最低,说话人相似度得分最高,全面超越MiniMax-Speech和ElevenLabs。
- 跨语言克隆:在12个语言方向中的10个取得最佳性能,例如中文到韩文的CER从CosyVoice3的14.4降至4.03。
- 定制语音:在29种语言的定制语音生成中,10种语言WER最低,在日语、韩语等挑战性语言上优势明显。
4. 文本与视觉能力保持:
- 文本能力:在MMLU-Pro(85.9)、IFEval(89.7)等文本基准上,与同尺寸纯文本模型Qwen3.5-Plus-Instruct持平,证明全模态训练未损害核心语言能力。
- 视觉能力:在MMMU(80.1)、视频理解(如Video-MME 81.9)等基准上,与Qwen3.5-Plus-Instruct性能相当甚至更优。
⚖️ 评分理由
- 创新性:10/10。ARIA、混合MoE用于全模态、显式时间戳、以及涌现的音视频代码生成能力,均为该领域的重要创新,特别是ARIA优雅地解决了流式语音生成的核心痛点。
- 实验充分性:10/10。评测体系极其庞大(215个任务),覆盖全面,对比对象(Gemini-3.1 Pro)是行业标杆,数据详实,消融和细节分析到位,结论坚实。
- 实用价值:9/10。直接面向实时语音交互、智能助手等实际应用,性能强大。但庞大的模型规模对部署门槛有较高要求,且不开源限制了学术界的直接参与和复现。
- 灌水程度:1/10。论文内容高度凝练,技术细节丰富,每一部分都指向解决明确的技术问题,几乎没有冗余或夸大表述,是一份高质量的技术报告。
🔗 开源详情
- 代码:未开源。论文中未提供GitHub/GitLab地址。
- 模型权重:未公开。论文仅提及“Qwen3.5-Omni is publicly accessible via API”(链接指向阿里云百炼平台)。未提及在HuggingFace等平台发布开源权重。
- 数据集:未公开。论文描述了庞大的训练数据构成,但未提供数据集下载或获取方式。
- 预训练权重:基于Qwen3.5文本模型和视觉编码器初始化,但这些基础模型的开源状态需另行确认(Qwen系列部分模型已开源)。
- 在线Demo:通过API提供服务,论文未提及独立的在线体验Demo。
- 依赖的开源项目:论文未明确列出依赖的开源工具,但提到了使用vLLM进行推理部署。
🖼️ 图片与表格
图片保留建议:
- 图3: AuT架构图 | 保留: 是 - 清晰展示了音频编码器(Encoder)和解码器(Decoder)的结构,包括下采样卷积和注意力层,是理解音频特征提取的关键。
- 图2: Qwen3.5-Omni整体架构图(文中提及但未在节选中显示)| 保留: 是 - 应保留,因为它展示了Thinker-Talker框架、多模态输入流、ARIA对齐和语音生成的完整数据流。
- 其他图表(如训练阶段示意图)如存在,建议保留架构和流程示意图。
关键表格数据输出:
Table 1: 架构与延迟概览:
- 模块:音频编码器(AuT) ✓, 视觉编码器(SigLIP2) –, Thinker(混合MoE) ✓, Talker(混合MoE) ✓, MTP(密集Transformer) ✓, Code2wav(ConvNet) ✓。
- 首包延迟(音频输入):Plus: 435ms, Flash: 235ms。
- 首包延迟(视频输入):Plus: 651ms, Flash: 426ms。
Table 2: 详细延迟与吞吐量(以Qwen3.5-Omni-Plus 1路并发为例):
- Thinker TTFT: 162ms(音频)/377ms(视频)
- Talker TTFC: 54ms(音频)/56ms(视频)
- Thinker TPOP: 17.4ms/18.5ms
- Talker TPOP: 14.9ms/14.9ms
- 整体延迟: 435ms/651ms
- 生成RTF: 0.187
Table 5: 音频到文本性能对比(部分关键数据):
- 音频理解:MMAU: Qwen3.5-Omni-Plus 82.2 > Gemini-3.1 Pro 81.1
- 对话:VoiceBench: Qwen3.5-Omni-Plus 93.1 > Gemini-3.1 Pro 88.9
- ASR:FLEURS (top60): Qwen3.5-Omni-Plus 6.55 (WER) < Gemini-3.1 Pro 7.32
Table 8: 零样本语音生成内容一致性对比:
- SEED test-en: Qwen3.5-Omni-Plus 1.26 (WER) < CosyVoice 3 1.45 < Seed-TTS RL 1.94
Table 13: 多语言ASR结果(FLEURS):
- 平均WER: Qwen3.5-Omni-Plus 6.6% < Gemini-3.1 Pro 7.3% < GPT-4o-Transcribe 10.4%
- 粤语WER: Qwen3.5-Omni-Plus 2.2% « Gemini-3.1 Pro 6.3%
📸 论文图片

