📄 Qwen3.5-Omni Technical Report

#语音对话系统, #音频大模型, #多模态模型, #预训练, #流式处理

🔥 评分:9.5/10 | arxiv

👥 作者与机构

  • 第一作者:论文以“Qwen Team”署名,未明确列出第一作者。根据贡献者列表排序和惯例,Jin Xu(标注为*)很可能是核心贡献者及通讯作者
  • 通讯作者:Jin Xu (*)
  • 其他作者:论文列出了大量核心贡献者(Core Contributors)和贡献者(Contributors),均来自阿里巴巴(Alibaba)通义千问(Qwen)团队。具体包括:Bin Han, Bowen Xu, Baosong Yang, Bin Zhang, Bo Zheng, Dayiheng Liu, Fan Zhou, Hongkun Hao, Hangrui Hu, Hao Zhou, Jianxin Yang, Jingren Zhou, Keqin Chen, Lulu Hu, Le Yu, Mingkun Yang, Peng Wang, Pei Zhang, Qize Yang, Rui Men, Ruiyang Xu, Shuai Bai, Shurui Li, Sibo Song, Ting He, Xize Cheng, Xuejing Liu, Xingzhang Ren, Xian Shi, Xiong Wang, Xinyu Zhang, Xinfa Zhu, Yunfei Chu, Yuanjun Lv, Yuchong Sun, Yongqi Wang, Yuxuan Wang, Yang Zhang, Zishan Guo, Zhifang Guo, Ziyang Ma 等。

💡 毒舌点评

亮点:这篇论文堪称“全模态六边形战士”,从音频编码器(AuT)到统一理解的Thinker,再到生成语音的Talker,最后到流式交互的ARIA,形成了一套完整且强大的技术栈,在215个基准上“刷榜”的实力令人印象深刻。 槽点:论文长得像一本小技术手册,信息密度极高,读起来需要耐力;另外,虽然API已开放,但未能开源代码和模型权重,对于学术界的研究复现和深度改进设置了门槛。

📌 核心摘要

Qwen3.5-Omni 是一个旨在统一理解、推理、生成与行动的全模态大语言模型。它解决了现有模型在实时交互、长上下文音视频处理、流式语音生成稳定性以及多语言支持等方面的局限性。方法上,它基于Thinker-Talker架构,引入了Hybrid MoE以提升效率,采用显式时间戳替代稀疏位置编码来增强时序感知,并创新性地提出了ARIA(自适应速率交错对齐)技术来动态对齐文本与语音单元,从而稳定流式语音合成。主要发现是,该模型在涵盖音频理解、语音识别、翻译、对话及音视频理解的215个基准上达到SOTA,超越了Gemini-3.1 Pro在关键音频任务上的表现,并展现出如“Audio-Visual Vibe Coding”等涌现能力。实际意义在于,它提供了一个强大的、可商用的全模态基座模型,推动了实时、自然、智能的人机交互发展,但其完全开源程度有限。

🏗️ 模型架构

Qwen3.5-Omni 采用 Thinker-Talker 双模块架构,专为全模态理解与流式语音生成设计。

  • 整体流程
    1. 输入:接收文本、图像、音频、视频(无声或带音频)等多模态输入。
    2. Thinker(思考者):作为核心理解与推理引擎。
    • 输入编码
      • 文本:使用Qwen3.5分词器(250k词表)。
      • 音频:波形重采样至16kHz → 128维梅尔频谱图(25ms窗,10ms跳) → Audio Transformer (AuT) 编码器(32层自注意力,4个下采样Conv2d块) → 输出6.25Hz的音频令牌。
      • 视觉(图像/无声视频):使用Qwen3.5视觉编码器(SigLIP2)。
      • 音视频:音频和视频流通过时间戳文本字符串(如“00:15.2”)进行显式对齐,并插入到各自模态的特征序列中,然后交织输入给Thinker。
    • 统一表征:将所有模态的表示转换为统一序列。
    • 核心模型:Thinker本身是一个Hybrid MoE Transformer,包含Gated Delta Net (GDN)模块,擅长高效处理长序列(支持256k令牌,约10小时音频或400秒720P视频)。
    • 输出:生成文本响应(用于对话)以及供Talker使用的条件表示(包括历史文本令牌、多模态表示、当前流式文本)。
    1. Talker(讲述者):负责生成语音响应。
    • 输入:接收Thinker输出的文本和上下文表示。
    • 语音表示:使用基于RVQ(残差矢量量化)的语音编码器(Qwen3.5-Omni-Audio-Tokenizer)将波形编码为多码本令牌。
    • 核心生成:Talker也是一个Hybrid MoE Transformer。它采用多令牌预测(MTP) 模块来建模RVQ的残差码本,实现细粒度声学控制。
    • 对齐技术(ARIA):Talker不再使用固定的双通道交错,而是采用ARIA。ARIA强制一个自适应速率约束:在生成的任何前缀序列中,累计的语音令牌与文本令牌的比率不得超过对应的全局项级比率。这确保了文本与语音的流畅对齐,尤其对于编码效率低的语言。
    • 输出:生成的多码本RVQ令牌通过一个因果流式ConvNet解码器(Code2wav)实时转换为波形。
    1. 流式与并发:Thinker采用分块预填充(Chunked Prefilling) 处理流式输入。ARIA将双轨生成统一为单一流,减少了同步开销,优化了令牌调度,更适合流式交互。Hybrid MoE架构中的GDN模块显著降低了长上下文推理的KV缓存I/O开销,提升了吞吐量和并发能力。

💡 核心创新点

  1. ARIA(自适应速率交错对齐)
    • 是什么:一种在流式语音生成中动态对齐文本与语音单元的算法,将传统的双通道生成模式重构为统一的单流交错序列。
    • 之前的方法:Qwen3-Omni等模型使用固定交错率或基于MFA的对齐,容易因文本和语音分词率不匹配导致跳词、错读、数字渲染模糊等问题。
    • 如何解决:ARIA施加了一个单调的交错约束,确保在任何生成前缀中,语音令牌的累积数量不会过度领先于其对应的文本令牌数量。这提供了跨语言的灵活对齐,自然支持任意文本令牌前缀后接连贯的语音令牌续写。
    • 效果:显著提升了流式对话语音的稳定性和韵律自然度,对低编码效率语言尤其有效,且对延迟影响极小。
  2. Hybrid MoE 架构的 Thinker-Talker
    • 是什么:在Thinker和Talker的核心Transformer中均采用了混合注意力专家混合(Hybrid Attention MoE)架构。
    • 之前的方法:使用密集模型,在扩展参数和处理长序列时效率较低。
    • 如何解决:Hybrid MoE结合了稠密和稀疏激活的优势,在提升模型容量的同时保持了推理效率。特别是集成了Gated Delta Net (GDN)模块,能高效建模长音频视频序列,大幅减少KV缓存。
    • 效果:实现了高效的大规模参数扩展和长上下文(256k)推理,支持更高的服务并发。
  3. 显式时间戳的时序建模
    • 是什么:在视频或音视频的每个时间块前,插入格式化的绝对时间戳文本字符串(如“00:01.5”),替代之前基于绝对时间的稀疏位置编码(TM-RoPE)。
    • 之前的方法:TM-RoPE对长序列会产生极其稀疏的位置ID,削弱了长程时序建模能力,且需要大量均匀帧率的训练数据。
    • 如何解决:让模型以更自然的方式学习时间码表示。对于音频序列,还在随机间隔插入时间戳以改善跨模态对齐。
    • 效果:为长上下文多模态输入提供了更精确、更鲁棒的时序感知能力,且支持任意时长的流式输入。
  4. 涌现能力:Audio-Visual Vibe Coding
    • 是什么:模型能够直接根据音视频指令生成可执行代码,这是一种在全模态模型中观察到的涌现能力。
    • 之前的方法:通常需要外部编排工具或多步流程来处理音视频指令并生成代码。
    • 如何解决:通过大规模原生全模态预训练和后训练,模型内化了从音视频感知到代码生成的端到端映射能力。
    • 效果:使模型能够响应实时查询,无需外部工具链,展示了作为原生全模态智能体的潜力。

🔬 细节详述

  • 训练数据
    • 预训练:总计约4万亿令牌。文本0.92万亿,音频1.99万亿,图像0.95万亿,视频0.14万亿,视频-音频0.29万亿。音频数据超过1亿小时。
    • 音频编码器(AuT)训练:使用4000万小时的音频-文本对数据,由Qwen3-ASR生成。中、英、多语言数据比例为3.5:3.5:3。
    • 语音生成(Talker)训练:通用阶段使用超过2000万小时的多语言语音数据。
    • 支持语言:文本201种,语音输入113种(含74种语言和39种中国方言),语音输出36种(含29种语言和7种中国方言)。
  • 损失函数:论文未详细列出具体损失函数公式,但提及了训练阶段:
    • Thinker后训练:三阶段策略:1) 领域专家蒸馏(SFT+RL),2) 在线策略蒸馏(将文本条件下的高质量响应蒸馏到音频条件),3) 交互对齐强化学习(针对多轮对话体验优化)。
    • Talker后训练:四阶段:1) 通用预训练,2) 长上下文持续预训练(使用高质量子集,借助Qwen3-Omni-Captioner去噪),3) 强化学习(DPO + GSPO),4) 说话人微调。
  • 训练策略与超参数
    • 预训练三阶段:S1(编码器对齐,冻结LLM),S2(全参数通用训练,序列长度32,768),S3(长上下文训练,序列长度262,144)。
    • 推理细节:Talker使用轻量级MTP模块预测RVQ令牌,通过因果流式ConvNet解码器转换为波形。部署使用vLLM,MTP模块和编解码器使用torch.compile和CUDA Graph加速。
    • 关键超参数:音频下采样率16倍,输出令牌率6.25Hz;视频动态帧率采样,确保与音频流160ms的时间ID对齐;上下文长度256k令牌。
  • 训练硬件:论文未明确说明GPU型号和数量。
  • 数据增强/正则化:未明确提及,但通过分块预填充、Hybrid MoE架构设计来提升效率和并发能力。

📊 实验结果

  • 主要指标对比(部分关键数据)
    • Audio → Text (理解)
      • MMAU:Qwen3.5-Omni-Plus 82.2 > Gemini-3.1 Pro 81.1
      • MMSU:Qwen3.5-Omni-Plus 82.8 > Gemini-3.1 Pro 81.3
      • VoiceBench:Qwen3.5-Omni-Plus 93.1 > Gemini-3.1 Pro 88.9
      • FLEURS ASR (平均WER):Qwen3.5-Omni-Plus 6.55 < Gemini-3.1 Pro 7.32 (越低越好)
    • Vision → Text (理解):在VideoMME (w/o sub.)等视频理解任务上,Qwen3.5-Omni-Plus (81.9) 与 Qwen3.5-Plus-NoThinking (81.0) 持平甚至略优。
    • AudioVisual Video → Text (理解)
      • DailyOmni:Qwen3.5-Omni-Plus 84.6 > Gemini-3.1 Pro 82.7
      • Qualcomm IVD:Qwen3.5-Omni-Plus 68.5 > Gemini-3.1 Pro 66.2
    • X → Speech (生成)
      • Zero-Shot TTS (SEED test-en WER):Qwen3.5-Omni-Plus 1.26, 优于 CosyVoice3 (1.45), MiniMax-Speech (1.65)。
      • 多语言语音生成 (29种语言平均WER):Qwen3.5-Omni-Plus在22种语言上取得最低WER,总体表现优于MiniMax-Speech和ElevenLabs。
      • 跨语言语音生成:在12个语言对中的10个上取得最佳性能,如中→韩WER从CosyVoice3的14.4降至4.03
    • 流式性能
      • 首包延迟(音频输入,Plus模型):435ms。
      • 首包延迟(视频输入,Plus模型):651ms。
      • 生成实时率 (RTF):在并发1时,Flash模型为0.178,Plus模型为0.187,均远低于1,保证流畅生成。
  • 消融实验:论文未提供明确的消融实验表格,但在各章节通过对比Qwen3-Omni等前代模型,阐述了ARIA、Hybrid MoE、显式时间戳等组件的改进效果。
  • 与SOTA对比:如上所列,在几乎所有音频和音视频基准上,Qwen3.5-Omni-Plus均达到或超越了Gemini-3.1 Pro等商业模型的水平。
  • 用户研究/主观评价:论文未包含传统的主观MOS评分,但通过在VoiceBench、WildSpeech-Bench等对话基准上的优异表现,间接证明了其生成语音的自然度和交互质量。

⚖️ 评分理由

  • 创新性:10/10 - ARIA技术巧妙解决了流式语音生成的核心痛点,Hybrid MoE和显式时间戳设计均是针对实际部署瓶颈的有效创新,Audio-Visual Vibe Coding展示了前沿的涌现能力。
  • 实验充分性:9.5/10 - 评估体系极其庞大和全面(215个任务),覆盖了从理解到生成、从零样本到定制化的所有维度,与SOTA对比明确。稍有遗憾的是未提供详细的消融实验数据。
  • 实用价值:10/10 - 模型直接面向实时、自然的音视频交互场景,支持长上下文、多语言、语音克隆,且已通过API提供服务,落地路径清晰,实用价值极高。
  • 灌水程度:1/10 - 论文内容高度密集,每一部分都围绕核心技术创新和性能验证展开,几乎没有冗余描述,是一篇扎实的技术报告。

🔗 开源详情

  • 代码:论文未提及代码开源。
  • 模型权重:论文未提及模型权重开源。明确指出模型通过 API 公开访问(https://www.alibabacloud.com/help/en/model-studio/qwen-omni)。
  • 数据集:论文未提及自建数据集开源。
  • 预训练权重:Thinker初始化使用了Qwen3.5的权重,视觉编码器来自Qwen3.5,音频编码器(AuT)从头训练。
  • 在线 Demo:论文未提供独立的在线Demo链接,但API入口可视为在线服务。
  • 引用的开源项目:论文中引用了多个开源基准和模型,如Common Voice, LibriSpeech, FLEURS, LiveCodeBench等,但未说明其自身代码依赖。

🖼️ 图片与表格

  • 图1: Qwen3.5-Omni 模型架构图 | 保留: 是 - 清晰地展示了Thinker-Talker的整体框架、多模态输入处理流程以及ARIA的核心思想,是理解论文的关键。
  • 图2: Audio Transformer (AuT) 架构图 | 保留: 是 - 详细说明了音频编码器的具体结构(编码器-解码器,下采样层),是技术细节的重要补充。
  • 图3: 流式推理延迟与吞吐量表 | 保留: 是 - 提供了Plus和Flash模型在不同并发度下的详细性能数据(TTFT, TTFC, TPOP, TPS, RTF),对于评估模型的实用性和部署成本至关重要。
  • 表1: 模型变体与关键特性 | 保留: 是 - 简洁对比了Plus和Flash模型在上下文长度、参数规模、支持任务上的区别。
  • 表2: 流式推理性能数据 | 保留: 是 - 同“图3”,是文本描述的核心数据表。
  • 表3: 预训练数据支持的语言和方言 | 保留: 否 - 内容可放入正文描述,作为独立表格信息密度较低。
  • 表4-7: 各类理解任务性能对比表 | 保留: 是 - 这些表格包含了与基线模型在数十个基准上的详细对比数据,是证明模型性能的核心证据,必须保留。
  • 表8-12: 语音生成性能对比表 | 保留: 是 - 这些表格展示了Zero-Shot、多语言、跨语言、定制语音等生成任务的详细结果(WER,说话人相似度),是评估生成质量的关键。
  • 表13-15: 附录中的多语言ASR与翻译详细结果 | 保留: 是(作为附录) - 提供了按语言细分的详尽数据,对于需要特定语言性能信息的读者非常有价值。

📸 论文图片

figure

figure

figure


← 返回 2026-04-20 论文速递