📄 Qwen3.5-Omni Technical Report

#多模态模型 #语音对话系统 #多语言 #语音合成

学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度中

👥 作者与机构

第一作者：未说明
通讯作者：未说明
作者列表：
- Bing Han (未说明)
- Baosong Yang (未说明)
- Bin Zhang (未说明)
- Bo Zheng (未说明)
- Dayiheng Liu (未说明)
- Fan Zhou (未说明)
- Hongkun Hao (未说明)
- Hangrui Hu (未说明)
- Jin Xu (未说明)
- Jianxin Yang (未说明)
- Jingren Zhou (未说明)
- Keqin Chen (未说明)
- Le Yu (未说明)
- Mingkun Yang (未说明)
- Peng Wang (未说明)
- Pei Zhang (未说明)
- Qize Yang (未说明)
- Rui Men (未说明)
- Ruiyang Xu (未说明)
- Shuai Bai (未说明)
- Sibo Song (未说明)
- Ting He (未说明)
- Xize Cheng (未说明)
- Xingzhang Ren (未说明)
- Xian Shi (未说明)
- Xiong Wang (未说明)
- Xinyu Zhang (未说明)
- Xinfa Zhu (未说明)
- Yunfei Chu (未说明)
- Yuanjun Lv (未说明)
- Yuchong Sun (未说明)
- Yongqi Wang (未说明)
- Yuxuan Wang (未说明)
- Yang Zhang (未说明)
- Zhifang Guo (未说明)
- Zishan Guo (未说明)
- Ziyang Ma (未说明)
- (以及数十位贡献者，论文中未提供其具体机构信息)

💡 毒舌点评

亮点：工程整合能力极强，在215个涵盖理解、推理和交互的音频/音视觉基准上全面达到SOTA，尤其在语音对话和多语言识别上超越了Gemini-3.1 Pro，展现了扎实的“刷榜”实力。短板：作为技术报告，其创新性主要体现在将现有技术（MoE、ARIA、长上下文）进行大规模组合与优化，而非提出颠覆性的新范式，读起来更像一份详尽的“产品说明书”而非“科学发现”。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文提到模型可通过API访问（链接：https://www.alibabacloud.com/help/en/model-studio/qwen-omni），但未提及是否开源模型权重供下载。
数据集：未提及。
Demo：未提及。
复现材料：论文提供了一些训练阶段的描述和评估结果，但未给出足以完全复现模型训练的超参数、数据处理细节或检查点。
论文中引用的开源项目：未在提供的文本中明确列出依赖的开源项目。

📌 核心摘要

这篇论文介绍了Qwen3.5-Omni，一个支持文本、图像、音频和音频-视频输入的全模态大语言模型。为解决现有模型在实时交互、跨模态推理和工具使用上的不足，其核心方法是采用“Thinker-Talker”架构，并引入混合专家（MoE）设计以提升效率。与前代相比，主要创新在于：1）模型规模扩展至数千亿参数并支持256k超长上下文；2）提出ARIA技术，动态对齐文本与语音token，显著提升了流式语音生成的稳定性和自然度；3）扩展了多语言支持（113种语言识别，36种语言合成）。实验结果显示，Qwen3.5-Omni-Plus在215个音频和音视觉基准上达到SOTA，在语音对话等关键任务上超越了Gemini-3.1 Pro。该工作为构建能够实时感知、推理、生成和行动的全模态智能体提供了坚实基础。主要局限在于论文作为技术报告，对部分训练细节（如具体损失函数、超参数）描述有限，且未开源模型权重和代码，限制了学术界的复现与深入研究。

🏗️ 模型架构

Qwen3.5-Omni采用“Thinker-Talker”双组件架构。

Thinker（思考者）：负责多模态理解与文本生成。它接收并处理所有输入模态：
- 文本输入：使用Qwen3.5分词器（250k词表）。
- 音频输入：经重采样后，由**音频Transformer（AuT）**编码器处理。AuT是一个从头训练的Transformer编码器，包含4个下采样Conv2D块和32个自注意力层，将128维梅尔频谱图转换为6.25Hz的音频token序列。
- 视觉输入：由来自Qwen3.5的视觉编码器处理，支持图像和视频。
- 时间对齐：采用显式时间戳（以秒为单位的文本字符串）为每个视频或音频-视频时间块添加前缀，取代了传统的TM-RoPE，以更自然地学习时间表示并支持任意时长的流式输入。不同模态的表示通过连续的、基于绝对时间的时间戳ID进行对齐。
- 骨干网络：Thinker本身采用混合注意力MoE架构，结合了标准注意力和**门控Delta网络（GDN）**模块，后者特别擅长高效建模长序列，减少了长上下文推理时的KV缓存开销，从而提升吞吐量和并发服务能力。
Talker（讲述者）：负责基于上下文生成语音。它以Thinker的文本输出和多模态表示为条件，直接生成**残差量化（RVQ）语音token。Talker同样采用混合MoE架构，并引入多token预测（MTP）**模块来建模残差码本。生成的多码本token通过一个因果、流式的ConvNet解码器转换为波形。
ARIA（自适应速率交错对齐）：这是Talker的关键创新。它将传统的双通道（文本和语音并行生成）生成范式统一为单流交错生成。ARIA强制执行一个自适应速率约束：在生成的任何前缀中，累积的语音token与文本token的比率不得超过对应的全局比率。这解决了因文本和语音分词器编码效率不匹配导致的跳字、发音错误等问题，显著提升了流式对话语音的稳定性和韵律自然度，同时保持了低延迟。
流式与并发设计：Thinker和Talker均支持分块预填充（chunked prefilling），以降低首token延迟。表格1显示，Flash版音频输入首包延迟为235ms，Plus版为435ms。

💡 核心创新点

大规模全模态统一与高效推理架构：将Thinker和Talker均升级为混合注意力MoE架构。这不仅提升了模型容量，更通过GDN模块显著降低了长音频-视频序列建模的计算和内存开销，使得在256k上下文长度下进行高效推理成为可能。
ARIA：解决流式语音生成对齐难题：提出自适应速率交错对齐技术，从设计上解决了文本和语音token生成速率不匹配的根本问题。相比之前依赖外部对齐工具（如MFA）或固定交错率的方法，ARIA更灵活、鲁棒，且能自然支持任意语言和低编码效率的语言，是提升对话式语音生成质量的关键。
显式时间戳建模：放弃直接使用TM-RoPE进行绝对时间编码，改为在模态token前添加格式化的文本时间戳。这使模型能更自然地学习时间码表示，避免了长视频中时间位置ID过于稀疏的问题，并增强了跨模态时间对齐的鲁棒性。
超大规模多语言与多方言支持：将语音识别扩展至113种语言和方言（包括39种中文方言），语音合成扩展至36种语言（包括7种中文方言），并展示了在跨语言语音克隆上的强大能力。
全模态智能体能力涌现：模型不仅能理解，还能行动，例如自主调用WebSearch、执行复杂函数调用，甚至出现了“音视频代码生成”（Audio-Visual Vibe Coding）这一新能力，即直接根据音视频指令生成可执行代码。

🔬 细节详述

训练数据：预训练使用了异构的文本-视觉对和超过1亿小时的音视频内容。具体数据分布：文本0.92万亿token，音频1.99万亿token，图像0.95万亿token，视频0.14万亿token，视频-音频0.29万亿token。Talker预训练使用了超过2000万小时的多语言语音数据。
训练策略：预训练分为三个阶段：1）编码器对齐阶段（S1）：冻结LLM参数，分别训练视觉和音频编码器及其适配器；2）通用阶段（S2）：解冻所有参数，在大规模多模态数据上训练，序列长度32,768；3）长上下文阶段（S3）：将最大序列长度提升至262,144，并增加长音频和长视频数据比例。后训练（Post-training）分为Thinker的三阶段（专家蒸馏、在策略蒸馏、交互对齐RL）和Talker的四阶段（通用、长上下文、RL、说话人微调）。
关键超参数：模型规模达数千亿参数（具体数字未说明）。上下文长度256k。音频编码器输出帧率6.25Hz（每帧约160ms）。文本分词器词表大小250k。
训练硬件：论文中未提及。
推理细节：采用流式生成。Talker使用MTP模块预测RVQ token，再由因果ConvNet解码。解码策略、温度等超参数未说明。
正则化/稳定技巧：在Talker训练中，使用了基于规则的奖励和GSPO来提高训练稳定性。

📊 实验结果

总体性能：Qwen3.5-Omni-Plus在215个音频和音视觉基准上达到SOTA，在音频理解、推理、识别、翻译和对话等关键任务上超越了Gemini-3.1 Pro。
音频理解（Audio → Text）：在MMAU（82.2）、MMSU（82.8）、RUL-MuchoMusic（72.4）等基准上超越Gemini-3.1 Pro。在语音对话基准VoiceBench上达到93.1分，显著优于Gemini-3.1 Pro的88.9分。
语音识别（ASR）：在Fleurs（top60）上WER为6.55%，优于Gemini-3.1 Pro的7.32%。在粤语、日语、韩语等复杂语言上优势明显。
语音生成（X → Speech）：
- 零样本TTS：在SEED-TTS基准上，WER在中文和英文上分别达到0.99和1.26，优于多数对比系统。
- 多语言生成：在29种语言中，有22种语言的内容一致性（WER）最佳，说话人相似度也普遍领先。
- 跨语言生成：在12个跨语言方向中的10个达到最佳性能，例如中→韩WER从CosyVoice3的14.4降至4.03。
- 定制语音生成：在仅单语数据微调的情况下，展示了强大的跨语言泛化能力，在10种语言上WER最佳。
音视频理解：在DailyOmni（84.6）、Qualcomm IVD（68.5）等基准上表现优异。
文本/视觉能力保持：与同规模的纯文本模型Qwen3.5-Plus-Instruct相比，在文本和视觉基准上性能相当或更优，证明了全模态训练未损害单模态能力。

⚖️ 评分理由

学术质量：6.5/7：论文系统性强，实验极其全面（215个基准），数据规模宏大（1亿小时音视频），技术整合度高，结果令人信服。主要扣分点在于其核心创新（如ARIA、时间戳建模）更多是针对具体工程问题的优化，而非提出全新的理论或模型范式。
选题价值：1.8/2：全模态智能体是AI发展的必然方向，该论文的工作直接推动了实时、交互式、可行动的全模态模型的发展，对学术界和工业界均有重要参考价值，与音频/语音研究高度相关。
开源与复现加成：0.0/1：论文仅提供API访问，未开源模型权重、代码或关键训练细节（如具体损失函数公式、完整超参数配置），使得学术界难以复现其核心工作，因此无加成。

🖼️ 图片与表格

图片保留建议：
- 图1（推测为架构图）: 内容描述：展示了AuT（音频Transformer）的编码器-解码器结构，包括FBank特征输入、下采样卷积、自注意力层，以及文本输入输出流程。 | 保留: 是 - 理由：这是理解音频编码器核心组件的关键架构图，直观展示了音频处理的流程。
关键实验表格复述：
- 表5（音频理解与对话）：对比了Qwen3.5-Omni与Gemini-3.1 Pro。例如，在VoiceBench上，Qwen3.5-Omni-Plus得分为93.1，Gemini-3.1 Pro为88.9。在Fleurs ASR（top60）上，Qwen3.5-Omni-Plus WER为6.55%，Gemini-3.1 Pro为7.32%。
- 表8（零样本TTS）：在SEED-TTS基准上，Qwen3.5-Omni-Plus的中文WER为0.99，英文WER为1.26，均优于表中的多数对比系统（如Seed-TTS RL的1.00/1.94，CosyVoice 3的0.71/1.45）。
- 表11（跨语言语音生成）：在中→韩方向，Qwen3.5-Omni-Plus的WER为4.03，显著低于CosyVoice3的14.4。
- 表12（定制语音生成）：在29种语言中，Qwen3.5-Omni-Plus在10种语言上WER最佳，例如日语（3.306）和韩语（1.309）。
分析受限说明：当前输入仅包含一张图片（AuT架构图），其他表格以文本形式嵌入在论文正文中。分析主要基于文本描述的表格数据。

📸 论文图片

← 返回 2026-04-23 论文速递

📄 Qwen3.5-Omni Technical Report#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文