📄 MOSS-Audio Technical Report
#语音识别 #音乐理解 #多模态模型 #预训练
9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5
🔥 9.2/10 | 前25% | #语音识别 | #预训练 | #音乐理解 #多模态模型 | arxiv
👥 作者与机构
核心贡献者:Chen Yang, Chufan Yu, Hanfu Chen, Jie Zhu, Jingqi Chen, Ke Chen, Wenxuan Wang, Yang Wang, Yaozhou Jiang, Yi Jiang, Zhengyuan Lin, Ziqi Chen, Zhaoye Fei 贡献者:Chenghao Liu, Jun Zhan, Kang Yu, Kexin Huang, Mingshu Chen, Qinyuan Cheng, Ruixiao Li, Shimin Li, Songlin Wang, Yang Gao, Yiyang Zhang 顾问:Xipeng Qiu§ 单位:上海创新研究院 (Shanghai Innovation Institute)、MOSI Intelligence、复旦大学 (Fudan University)
💡 毒舌点评
这篇技术报告野心不小,想做一个“通吃”的音频理解基座模型,从语音转录到音乐分析再到环境声推理一把抓。架构上借鉴了视觉语言模型的DeepStack和显式时间戳思路,数据流水线设计得相当复杂,号称用了“百万小时”数据,听起来唬人。实验部分确实铺得很开,各种SOTA对比表刷得飞起,尤其是那个时间戳ASR,指标碾压同行。但仔细一想,模型本质还是“编码器+适配器+LLM”这一套,创新性主要在工程整合和数据流水线上,理论突破有限。最让人诟病的是,号称开源,但核心的预训练数据集和训练代码都没放出来,这就像卖厨具的只给你看成品菜,不给菜谱和食材。消融实验虽然做了,但只在轻量级配置上验证DeepStack,在完整8B模型上没展示,说服力打了折扣。整体而言,这是一份工程实力强劲、数据集规模惊人的“技术展示”,但对于想复现或深入理解其核心方法的研究者来说,信息披露远远不够,更像是一份精心包装的产品说明书。
📌 核心摘要
本文提出了MOSS-Audio,一个统一的音频-语言模型家族,用于语音、环境声和音乐理解。模型采用编码器-适配器-解码器架构,核心创新包括:1)DeepStack跨层特征注入,将音频编码器多层特征注入语言模型解码器,以保留多粒度声学信息;2)在音频表征序列中插入显式时间标记,支持时间感知的生成任务。此外,论文设计了一个事件保持的音频标注流水线,构建了规模达“数百万小时”的标注音频数据集。预训练使用约1.2T个token。发布了4B和8B参数的Instruct与Thinking版本。实验表明,MOSS-Audio在通用音频理解(MMAU等)、语音描述、ASR和时间戳ASR任务上取得了开源模型中的领先性能,被视为未来语音智能体的一个有前景的理解基础。
🔗 开源详情
- 代码:论文中未提及代码仓库链接。
- 模型权重:Hugging Face: https://huggingface.co/collections/OpenMOSS-Team/moss-audio;ModelScope: https://modelscope.cn/collections/openmoss/MOSS-Audio
- 数据集:论文中描述了构建“百万小时规模”音频数据集的过程,但未提供该数据集的下载链接或开源协议。
- Demo:https://openmoss.github.io/MOSS-Audio/
- 复现材料:论文在附录A中提供了详细的评估提示词模板、时间戳序列化示例、完整的ASR评估结果以及消融研究细节,这些信息可用于复现评估实验。
🏗️ 方法概述和架构
MOSS-Audio采用一个端到端的音频条件语言模型架构,主要包含三个可训练组件:一个专用的音频编码器、两个GatedMLP跨模态适配器和一个语言模型解码器。整体架构如论文图2所示。
音频编码器:这是一个从零开始在“百万小时”级数据上训练的~0.6B参数模块,旨在捕获广泛的声学属性而非仅限于语音。它处理128通道的对数梅尔频谱图,通过三个步长为2的Conv2D层进行8倍时间下采样,最终输出12.5 Hz的时序表征。其核心是一个32层Transformer骨干网络,隐藏维度为1280。为高效处理长上下文,编码器采用滑动窗口注意力(最大100帧,即8秒),将长程语义推理委派给语言模型,同时确保局部声学建模的鲁棒性。
DeepStack跨层特征注入:传统方法仅将编码器最终层输出传递给语言模型,会丢失低层声学细节。MOSS-Audio借鉴视觉语言模型中的DeepStack技术,将音频编码器的多层特征注入语言模型。具体而言,除了主适配器投影编码器最终层输出(提供主干表征)外,还并行提取编码器中间层的隐藏状态,通过一个独立的合并适配器(使用与主适配器相同的GatedMLP投影)将其映射到语言模型隐藏空间,并注入解码器的早期层。这种设计为解码器提供了音频的多粒度视图(包括低层时频模式、瞬态事件、韵律线索和高层语义信息),无需扩大编码器尺寸。
时间感知建模:为实现时间定位,MOSS-Audio在音频表征序列中插入显式的时间标记。编码器以12.5 Hz产生表征,即每25个音频特征对应2秒。模型在每25个音频特征后追加一个时间标记(如“2”、“4”、“6”、“8”等,表示该位置经过的秒数)。这些标记被嵌入并与适应后的音频表征一起被语言模型处理,为时间戳生成、事件定位和时间感知音频推理提供明确的时序锚点。
数据流水线:这是一个分支式的引擎,用于构建训练数据。
- 事件分割:不采用固定时间窗切割,而是使用BEATs模型在帧级进行声音事件检测,并在事件边界处进行分割,以保留完整的声学事件。分割后的片段保留其AudioSet事件标签,并映射为9个粗粒度类别,用于后续路由。
- 分支标注:根据片段的事件标签,将其路由至不同的标注分支:
- ASR与时间戳对齐:处理包含语音或歌唱的片段。使用多个ASR系统(如Qwen3-Omni, FunASR Nano, Qwen3-ASR)生成伪标签,通过跨系统词错误率(WER)进行一致性筛选。使用TorchAudio的MMS_FA强制对齐模型生成字级时间戳,并聚合成句级时间戳。
- 语音描述:处理包含人声活动的片段。使用DiariZen进行说话人感知分割,然后由一个内部训练的语音描述模型为每个说话人区域生成描述声学特征(如性别、年龄、语调、情感等)的标注。
- 音频描述:处理环境声和开放域声学场景。结合本地事件证据(来自PretrainedSED和Detect Any Sound)与全局语义线索(来自Qwen3-Omni-Captioner),使用Qwen3-Omni-30B-Thinking作为融合模型生成密集描述,并经过验证和筛选。还利用合成数据(遵循TAC方法)补充难例。
- 音乐描述:处理音乐片段。结合音频语言模型(如Qwen3-Omni, MusicFlamingo)的全局描述,以及MIR工具链(如Chordino, BeatNet, madmom, Essentia, JukeMIR, SongFormer)提取的符号化/结构化证据(和弦、节拍、调性、歌曲结构等),由指令微调的LLM生成最终的、信息密集的音乐描述。
- 描述合并与优化:所有分支的输出(ASR转录、说话人描述、音频描述、音乐描述)被统一到一个
tool_results接口中。一个轻量级路由策略(Router-R1)根据归一化的模态先验和质量控制规则,决定哪些证据分支应包含在最终目标中及其排序。然后通过一个两阶段的LLM合成协议,生成一个统一的、信息密集的描述性文本目标,用于预训练。


💡 核心创新点
- 将DeepStack跨层特征注入应用于音频语言模型:明确提出在音频-语言建模中,为解码器提供来自音频编码器多个深度(而非仅最后一层)的特征,以保留低层到高层的多粒度声学证据,这是对现有音频LLM架构的改进。
- 显式时间标记建模:在音频表征序列中显式插入数值时间标记,将绝对时间信息编码到模型上下文中,以原生方式支持时间戳转录和时间感知问答任务。
- 事件保持的分支式数据流水线:设计了以事件边界分割为基础,针对语音、音乐、通用音频分别进行专业化标注,最后合并为统一描述的复杂数据构造流程,并声称构建了“数百万小时”规模的标注数据集。
📊 实验结果
- 通用音频理解(表1) MOSS-Audio在MMAU, MMAU-Pro, MMAR, MMSU四个基准上取得了开源模型最佳平均分。MOSS-Audio-8B-Thinking平均分为71.08,超过了所有其他开源模型(包括30B规模的模型)。Thinking变体一致优于对应的Instruct变体。
| 模型 | 参数量 | MMAU | MMAU-Pro | MMAR | MMSU | 平均分 |
|---|---|---|---|---|---|---|
| 闭源模型 | ||||||
| GPT4o-Audio | – | 65.66 | 52.30 | 59.78 | 58.76 | 59.13 |
| Gemini-3-Pro | – | 80.15 | 68.28 | 81.73 | 81.28 | 77.86 |
| Gemini-3.1-Pro | – | 81.10 | 73.47 | 83.70 | 81.30 | 79.89 |
| 开源模型 | ||||||
| Qwen3-Omni-30B-A3B-Instruct | 30B | 75.00 | 61.22 | 66.40 | 69.00 | 67.91 |
| Step-Audio-R1.1 | 33B | 72.18 | 60.80 | 68.75 | 64.18 | 66.48 |
| Kimi-Audio | 7B | 72.41 | 56.58 | 60.82 | 54.74 | 61.14 |
| Qwen2.5-Omni | 7B | 65.60 | 52.20 | 56.70 | 61.32 | 58.96 |
| Audio Flamingo Next | 8B | 76.10 | 56.34 | 51.01 | 57.20 | 60.16 |
| MiMo-Audio-7B | 7B | 74.90 | 53.35 | 61.70 | 61.94 | 62.97 |
| MiniCPM-o-4.5 | 9B | 70.97 | 39.65 | 55.75 | 60.96 | 56.83 |
| MOSS-Audio-4B-Instruct | 4B | 75.79 | 58.16 | 62.54 | 59.68 | 64.04 |
| MOSS-Audio-4B-Thinking | 4B | 77.64 | 60.75 | 63.91 | 71.20 | 68.37 |
| MOSS-Audio-8B-Instruct | 8B | 77.03 | 57.48 | 64.42 | 66.36 | 66.32 |
| MOSS-Audio-8B-Thinking | 8B | 77.33 | 64.92 | 66.53 | 75.52 | 71.08 |
- 语音描述(表2) 在自建的13维语音描述基准上,MOSS-Audio-8B-Instruct取得了最高平均分3.725,在多数维度上表现优异,尤其在性别、口齿清晰度、流利度等方面。
| 维度 | Audio-Flamingo-Next | Qwen3-Omni-Instruct | Qwen3-Omni-Thinking | Gemini-3-Pro | Gemini-3.1-Pro | MOSS-Audio-4B-Instruct | MOSS-Audio-8B-Instruct |
|---|---|---|---|---|---|---|---|
| 性别 | 4.617 | 4.436 | 4.419 | 4.191 | 4.347 | 4.697 | 4.683 |
| 年龄 | 3.461 | 3.936 | 4.026 | 3.835 | 4.030 | 3.980 | 3.979 |
| 口音 | 3.160 | 4.356 | 4.327 | 4.181 | 4.310 | 4.497 | 4.572 |
| 音调 | 2.679 | 3.590 | 3.610 | 3.392 | 3.474 | 3.628 | 3.682 |
| 音量 | 2.391 | 3.682 | 3.577 | 3.254 | 3.580 | 3.722 | 3.709 |
| 语速 | 2.818 | 3.614 | 3.610 | 3.320 | 3.687 | 3.564 | 3.638 |
| 音色 | 1.941 | 3.093 | 3.179 | 2.998 | 3.134 | 3.407 | 3.403 |
| 清晰度 | 2.839 | 3.521 | 3.403 | 3.347 | 3.559 | 3.841 | 3.869 |
| 流利度 | 2.788 | 3.531 | 3.526 | 3.524 | 3.720 | 3.744 | 3.747 |
| 情感 | 2.056 | 3.328 | 3.232 | 3.055 | 3.231 | 3.311 | 3.314 |
| 语气 | 2.025 | 3.224 | 3.154 | 2.997 | 3.245 | 3.282 | 3.253 |
| 个性 | 1.940 | 3.292 | 3.197 | 3.023 | 3.158 | 3.305 | 3.272 |
| 摘要 | 2.157 | 3.179 | 3.107 | 2.775 | 3.028 | 3.259 | 3.307 |
| 平均 | 2.683 | 3.599 | 3.567 | 3.376 | 3.577 | 3.711 | 3.725 |
- ASR(表3) 在12个维度的ASR评估中,MOSS-Audio-8B-Instruct取得了最佳整体CER(11.30%),在歌唱、方言、代码切换等多个维度表现突出。
| 维度 | Paraformer-Large | GLM-ASR-Nano | Fun-ASR-Nano | SenseVoice-Small | Kimi-Audio-7B-Instruct | Audio-Flamingo-Next | Qwen2.5-Omni-3B | Qwen2.5-Omni-7B | Qwen3-Omni-Instruct | MOSS-Audio-4B-Instruct | MOSS-Audio-8B-Instruct |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 健康状况 | 22.18 | 24.49 | 21.99 | 24.04 | 21.11 | 36.13 | 24.65 | 23.85 | 20.73 | 21.11 | 19.18 |
| 方言 | 43.45 | 22.39 | 7.80 | 8.89 | 29.34 | 25.85 | 33.87 | 31.91 | 15.63 | 11.84 | 8.76 |
| 歌唱 | 32.34 | 51.95 | 19.35 | 23.79 | 21.76 | 25.80 | 24.24 | 22.69 | 16.01 | 10.79 | 9.81 |
| 非语言发声 | 4.95 | 4.65 | 4.76 | 4.92 | 4.68 | 8.25 | 5.54 | 4.56 | 4.73 | 4.01 | 4.31 |
| 代码切换 | 12.65 | 11.88 | 11.23 | 13.90 | 16.38 | 34.53 | 11.66 | 12.97 | 11.30 | 10.11 | 10.18 |
| 声学环境(干净) | 3.11 | 3.68 | 2.98 | 4.13 | 2.20 | 8.64 | 2.76 | 2.52 | 2.23 | 3.11 | 2.70 |
| 声学环境(嘈杂) | 4.67 | 5.02 | 3.46 | 4.93 | 2.15 | 38.85 | 3.56 | 3.16 | 2.47 | 3.72 | 3.20 |
| 耳语 | 5.02 | 4.94 | 3.78 | 5.57 | 2.66 | 12.84 | 4.32 | 3.64 | 1.90 | 3.29 | 2.75 |
| 远/近场 | 17.46 | 27.51 | 18.38 | 26.66 | 21.02 | 42.90 | 22.15 | 25.38 | 17.08 | 18.48 | 24.04 |
| 多说话人 | 20.33 | 28.02 | 19.82 | 24.06 | 20.61 | 62.13 | 22.91 | 21.01 | 18.15 | 20.33 | 24.36 |
| 年龄 | 14.96 | 17.19 | 14.95 | 17.63 | 16.74 | 38.30 | 15.17 | 16.13 | 11.46 | 15.09 | 15.26 |
| 语义内容 | 7.14 | 7.32 | 6.08 | 7.55 | 6.12 | 30.18 | 7.24 | 6.78 | 5.74 | 8.15 | 7.69 |
| 平均 | 15.77 | 17.29 | 12.04 | 14.50 | 14.12 | 30.19 | 15.26 | 15.05 | 11.39 | 11.58 | 11.30 |
- 时间戳ASR(表4) 使用累积平均偏移(AAS)指标评估,MOSS-Audio-8B-Instruct在AISHELL-1(中文)和LibriSpeech(英文)上均取得了最佳性能(AAS值最低),分别为35.77 ms和131.61 ms,显著优于基线模型。
| 模型 | AISHELL-1 (zh) | LibriSpeech (en) |
|---|---|---|
| Audio-Flamingo-Next | – | 211.15 |
| Qwen3-Omni-Instruct | 833.66 | 646.95 |
| Gemini-3.1-Pro | 708.24 | 871.19 |
| MOSS-Audio-4B-Instruct | 76.96 | 358.13 |
| MOSS-Audio-8B-Instruct | 35.77 | 131.61 |
- 消融研究
- DeepStack消融(表8):在MOSS编码器+Qwen3-0.6B基座的设置下,与仅使用编码器最终层特征的基线相比,引入DeepStack在整体DATE指标上略有提升(0.4831 vs 0.4823),并在音乐、纯音、环境声等非语音类别上带来显著增益,但语音类别性能略有下降。
- 音频编码器能力(表6):使用XARES-LLM框架评估,MOSS音频编码器在Task 1(音频理解)平均分0.760,低于AuT(0.809);在Task 2(语音与生成)平均分0.673,优于AuT(0.661)和Whisper(0.492)。
- ASR能力天花板(表7):在受控设置下(编码器+Qwen3-1.7B,预训练100k步),MOSS音频编码器在38个数据集上的平均CER/WER为16.31%,优于AuT的17.61%。


⚖️ 评分理由
- 创新性 (1.5/2)���核心思想(跨层特征注入、显式时间戳)有明确价值且组合有效,但DeepStack是视觉领域的现有技术迁移,显式时间戳在近期音频/视频模型中已有类似实践(如TimeAudio),因此创新更多体现在成功的领域整合与工程实现,而非概念性突破。
- 技术严谨性 (1.3/1.5):训练流程描述清晰,包含两阶段预训练、SFT、推理冷启动和DAPO强化学习,细节丰富(如RL的具体参数)。消融实验提供了证据,但仅限于轻量级设置,缺乏对完整8B模型核心组件(如DeepStack在不同层配置的影响)的消融。未讨论模型推理成本与效率。
- 实验充分性 (1.5/1.5):评估覆盖广泛,包含通用理解、描述、ASR、时间戳ASR等多个任务,并提供了与众多强基线(包括闭源和开源)的详细对比。表格数据完整,指标选择合理。
- 清晰度 (1.3/1.5):技术报告结构完整,图文并茂(如架构图、流水线图、训练曲线),关键模块解释到位。但在某些复杂部分(如数据流水线的合并与优化策略)描述略显冗长,可读性可进一步提升。
- 影响力 (1.0/1.0):作为统一音频理解的基础模型,对语音、音频、音乐领域的研究者和开发者有直接价值。其发布的模型权重和Demo有助于社区快速评估和应用。但受限于开源程度(无训练数据/代码),完全复现的影响力受阻。
- 开源 (1.0/1.0):开源了模型权重(HuggingFace, ModelScope)和在线Demo,极大方便了社区使用和评估。但未开源核心的预训练数据集和训练代码,这是重要的扣分项。
- 可复现性 (1.0/1.0):提供了详尽的评估提示词模板(附录A.1)、时间戳格式示例(A.2)、完整的ASR评估结果(A.3)和消融研究细节(A.4),使得评估阶段具有高可复现性。但由于缺乏训练数据和代码,模型训练的可复现性无法保证。
- 工程/实践价值 (1.4/1.5):模型设计考虑了实际应用需求(如时间戳、多任务),数据流水线为构建大规模音频数据集提供了有价值的方法论参考。DAPO训练细节对RL在音频领域的应用有参考价值。但“百万小时”数据的获取对普通团队而言难以企及。
🚨 局限与问题
- 开源不彻底:这是最显著的局限。论文声称构建了“数百万小时”的数据集,但未提供数据集下载链接或详细的构成清单,外部研究者无法复现预训练阶段。仅开源模型权重,而未开源训练代码,限制了方法论的深度验证和改进。
- 消融实验的代表性:DeepStack的消融研究仅在“MOSS编码器+Qwen3-0.6B”这一轻量级组合上进行。对于核心发布的8B模型,其DeepStack的具体配置(如注入哪些层、比例多少)未在消融中探讨,无法确认该机制在大规模模型中是否同样有效,或其具体贡献度。
- 计算成本与效率未评估:报告未提供模型推理的FLOPs、延迟、内存占用等效率指标。DeepStack引入了多层特征注入,理论上会增加解码器的计算负担,但未量化其实际影响,这对部署至关重要。
- 部分实验结论需谨慎看待:在语音描述任务中,MOSS-Audio在多个维度上取得领先,但领先幅度有时很小(如流利度维度与第二名的差距约0.003),且该自建基准的标注者间一致性未报告,分数的绝对可靠性存疑。在ASR的某些维度(如远/近场、多说话人),MOSS-Audio-8B并非最佳,但摘要未提此点,有选择性展示之嫌。
- 对“通用”的过度宣称:论文定位为“统一”模型,但在音乐理解等任务上,实验部分并未提供定量评估(如音乐分类、情感识别),仅在数据流水线中描述了音乐描述流程。其音乐理解能力的实际效果缺乏数据支撑。
- 强化学习阶段细节有限:虽然描述了DAPO训练,但未提供SFT阶段所用数据的具体规模、构成,以及推理冷启动数据的具体内容。这些信息对于理解模型能力的来源至关重要。
📷 论文图片
