📄 FormalASR: End-to-End Spoken Chinese to Formal Text
#语音识别 #端到端 #模型量化 #数据集
🔥 8.2/10 | 前25% | #语音识别 | #端到端 | #模型量化 #数据集 | arxiv
学术质量 5.1/7 | 影响力 1.4/2 | 可复现性 1.7/2 | 置信度 高
👥 作者与机构
- 第一作者:未说明
- 通讯作者:未说明
- 作者列表:Wanyi Ning, Yinshang Guo, Haitao Qian, Jiyuan Cheng, Weiyuan Feng, Yufei Zhang (论文未提供具体所属机构信息)
💡 毒舌点评
本文精准地瞄准了语音识别领域一个真实且被广泛忽视的痛点——口语化输出与下游正式文本需求之间的鸿沟,并提供了一个简洁有效的端到端解决方案。其最大亮点在于通过构建高质量的数据集(WenetSpeech-Formal与Speechio-Formal)和扎实的微调实验,有力地证明了在紧凑模型(0.6B和1.7B参数)中同时学习声学识别与语言风格转换的可行性。据作者称,这是首个将紧凑音频语言模型端到端微调用于中文口语转正式文本的工作。然而,其核心方法在技术上主要是对现有强大基座模型(Qwen3-ASR)的一次针对性的监督微调(SFT),而非架构层面的创新,这使得工作的原创深度稍显不足。虽然其发布的数据集和模型具有明确的实用价值,但作为一篇顶会论文,其在方法论上的突破性有限。
📌 核心摘要
- 问题:当前主流的自动语音识别(ASR)系统(如Whisper, Qwen3-ASR)主要输出忠实于口语的逐字稿(verbatim transcription),包含填充词、重复、不规范句式等,不适合会议纪要、文档编辑等需要正式书面文本的下游应用。传统的两阶段方案(ASR+LLM改写)增加了延迟、内存成本和部署难度,且难以应用于设备端。
- 方法核心:提出FormalASR,一个端到端框架,通过监督微调(SFT)将预训练的音频语言模型(Qwen3-ASR)直接适配于将语音转换为正式文本的任务。其关键在于构建了大规模的“口语-正式文本”配对数据集(WenetSpeech-Formal和Speechio-Formal),用于训练模型一次性完成识别与风格转换。
- 创新之处:与两阶段流水线或大型多模态模型(如GPT-4o-audio)不同,FormalASR采用单个紧凑模型(0.6B和1.7B参数)完成任务,适合设备端部署。据称这是首个将紧凑音频语言模型端到端微调用于中文口语转正式文本的工作。
- 实验结果:在构建的两个数据集上,FormalASR相比原始逐字稿基线取得了显著的性能提升。关键数据如下表所示。
| 模型 | 数据集 | CER ↓ | ROUGE-L ↑ | BERTScore ↑ |
|---|---|---|---|---|
| Qwen3-ASR-0.6B (基线) | WenetSpeech-Formal (域内) | 0.2581 | 0.8463 | 0.9198 |
| FormalASR-0.6B (本文) | WenetSpeech-Formal (域内) | 0.1770 (-31.4%相对) | 0.8769 | 0.9359 |
| Qwen3-ASR-1.7B (基线) | Speechio-Formal (跨域) | 0.2393 | 0.8510 | 0.9108 |
| FormalASR-1.7B (本文) | Speechio-Formal (跨域) | 0.1499 (-37.4%相对) | 0.9029 | 0.9533 |
- 实际意义:为需要正式文本输出的语音交互场景(如文档编辑、会议记录)提供了一个低延迟、低内存、隐私安全的轻量级端侧解决方案。GGUF量化实验表明模型可以压缩到约1GB且性能损失可控,具备实际部署潜力。
- 主要局限:该方法高度依赖由第三方LLM(DeepSeek-V3.2)生成的“正式文本”参考,其质量上限和风格定义可能受限。此外,论文缺少与“ASR+LLM”两阶段流水线这一标准做法的直接性能与延迟对比。
🔗 开源详情
- 代码:https://github.com/TaurenMountain/FormalASR
- 模型权重:
- FormalASR-0.6B: https://huggingface.co/TaurenMountain/FormalASR-0.6B
- FormalASR-1.7B: https://huggingface.co/TaurenMountain/FormalASR-1.7B
- 数据集:
- WenetSpeech-Formal: https://huggingface.co/datasets/TaurenMountain/WenetSpeech-Formal
- Speechio-Formal: https://huggingface.co/datasets/TaurenMountain/Speechio-Formal
- Demo:论文中未提及
- 复现材料:论文中提供了具体的训练配置,可作为复现材料。训练基于Qwen3-ASR官方检查点初始化,使用全参数监督微调(SFT),在WenetSpeech-Formal训练集上训练2个epoch。训练环境为2张NVIDIA A800-SXM4-80GB GPU,采用BF16精度并启用梯度检查点。优化器为AdamW,使用余弦学习率调度,峰值学习率为2e-5,前5%的训练步骤进行线性预热。设备批大小为4,梯度累积2步,有效全局批大小为16。
- 论文中引用的开源项目:
- Whisper: https://github.com/openai/whisper
- Qwen3-ASR: https://github.com/QwenLM/Qwen3-ASR
- SenseVoice: https://github.com/FunAudioLLM/SenseVoice
- DeepSeek-V3.2: https://github.com/deepseek-ai/DeepSeek-V3
- llama.cpp: https://github.com/ggerganov/llama.cpp
- bitsandbytes: https://github.com/TimDettmers/bitsandbytes
🏗️ 方法概述和架构
整体流程概述:FormalASR是一个端到端的单模型系统。给定输入音频波形,模型直接生成对应的正式书面文本序列,无需任何中间的逐字稿输出或后处理模块。其核心思想是将声学识别和语言风格转换耦合为一个统一的条件生成过程。
主要组件/模块详解:
音频编码器:
- 名称:Whisper-style audio encoder。
- 功能:将原始音频波形转换为高层的声学特征表示,为后续的文本解码提供信息基础。
- 内部结构/实现:采用与OpenAI Whisper模型相同的编码器架构(论文未详细说明,但Qwen3-ASR通常采用该架构)。该编码器通常由多层Transformer编码器组成,处理经过线性频谱图变换后的音频特征。
- 输入输出:输入为原始音频波形或其预处理后的特征;输出为一系列音频token表示,每个时间步对应一个特征向量,包含了语音内容、说话人、环境等信息。
文本解码器:
- 名称:Qwen decoder。
- 功能:基于音频特征和已生成的历史文本,以自回归方式逐个token地生成目标正式文本。
- 内部结构/实现:采用Qwen系列大语言模型(LLM)的解码器架构,本质上是Transformer解码器。它通过交叉注意力机制融合来自音频编码器的信息,并利用自回归语言建模能力预测下一个token的概率分布。
- 输入输出:输入为音频编码器的输出特征序列和前一步生成的token(训练时为教师强制);输出为下一个token的概率分布,通过argmax或采样得到最终的文本token。
训练与微调策略:
- 名称:监督微调(Supervised Fine-Tuning, SFT)。
- 功能:在构建的“口语-正式文本”数据集上,调整预训练Qwen3-ASR模型的参数,使其学习从语音到正式文本的直接映射。
- 内部结构/实现:使用标准的教师强制交叉熵损失(公式2),最小化模型在给定音频输入下生成正确正式文本序列的负对数似然。该损失函数引导模型同时学习:a) 音频到文本的声学对齐;b) 口语现象(填充词、重复)的识别与删除;c) 句子结构的重组与规范化;d) 语义内容的保持。
- 输入输出:训练数据为(音频,正式文本)对;优化目标是最小化在正式文本参考上的交叉熵损失。
组件间的数据流与交互: 数据流是单向的:原始音频 → 音频编码器 → 音频特征表示序列 → (通过交叉注意力)→ 文本解码器 → 自回归生成正式文本序列。这是一个典型的编码器-解码器架构。在解码的每一步,解码器都会通过交叉注意力机制“回顾”整个音频特征序列,并结合已生成的token历史来预测下一个token。
关键设计选择及动机:
- 端到端 vs. 两阶段:选择端到端架构的核心动机是降低部署复杂度、延迟和内存占用,使其适合设备端场景。论文明确对比了传统ASR+LLM流水线的缺点(双重内存、高延迟、错误传播)和GPT-4o等大型多模态模型的云端依赖问题(见Table 1)。
- 基座模型选择:选择Qwen3-ASR作为基座,是因为它本身就是一个强大的、集成了LLM解码器的音频语言模型,已具备良好的语音理解和文本生成能力,为微调提供了高起点。
- 微调 vs. 从头训练:采用微调而非从头训练,是因为大规模预训练的音频语言模型已蕴含丰富的声学和语言知识,微调能高效地将其能力导向“生成正式文本”这一特定目标,且所需数据量和计算资源远小于从头训练。
架构图/流程图: 论文中未提供单独的系统架构图。但其流程可由文字描述和公式(1)清晰定义:音频输入送入Whisper编码器,得到特征序列;该序列通过交叉注意力被Qwen解码器“读取”;解码器从起始符开始,自回归地生成正式文本序列,直至结束符。
专业术语解释:
- 逐字稿(Verbatim Transcription):忠实记录所说每一个词的转录,包括所有口误、填充词、重复和不规范表达。
- 正式文本(Formal Text):符合书面语规范、结构清晰、语法正确、去除了所有口语化特征的文本。
- 监督微调(SFT):使用标注好的输入-输出对,以监督学习的方式调整预训练模型的参数,使其适应特定任务。
- 教师强制(Teacher Forcing):在训练序列生成模型时,将前一步的真实目标token(而非模型自身的预测)作为下一步的输入,以加速训练收敛。
- GGUF量化:一种针对大语言模型的高效量化格式,支持混合精度,广泛应用于llama.cpp等推理框架,旨在减少模型体积和内存占用,加速推理。
- 字符错误率(CER):衡量字符级转录准确性的指标,计算替换、删除、插入错误占总字符数的比例,值越低越好。
💡 核心创新点
- 提出端到端“口语转正式文本”范式:明确指出了传统ASR输出与下游需求脱节的问题,并提出了用单个紧凑模型直接解决该问题的范式,区别于两阶段流水线或超大模型方案,强调了设备端部署的可行性。论文在Table 1中系统对比了不同范式的优缺点。
- 构建大规模中文“口语-正式文本”数据集:发布了WenetSpeech-Formal(969K训练样本)和Speechio-Formal(43K测试样本)两个新数据集。这是支撑端到端训练的核心资源,其构建流程(基于DeepSeek-V3.2的LLM改写+质量过滤)为社区提供了可复用的数据生产思路。
- 验证了紧凑模型的潜力:通过实验(最高达37.4%的CER相对降低)证明了0.6B和1.7B规模的音频语言模型在经过适当微调后,具备强大的、隐式的语言风格转换能力。论文指出,现代ASR模型已具备语言形式化的潜在能力,只需适当的监督即可激活。
- 展示了实用的部署路径:进行了详尽的模型量化实验(GGUF和bitsandbytes),量化了不同精度下的性能-体积权衡,并证明了模型在量化后仍保持较高性能,为实际的设备端部署提供了具体参数和可行选项。
📊 实验结果
主要基准与结果: 论文在两个自建基准上评估了模型的“口语转正式文本”能力。
表4:主要性能对比
| 模型 | WenetSpeech-Formal (域内测试) | Speechio-Formal (跨域测试) | |||
|---|---|---|---|---|---|
| CER ↓ | ROUGE-L ↑ | BERTScore ↑ | CER ↓ | ROUGE-L ↑ | |
| Qwen3-ASR-0.6B (基线) | 0.2581 | 0.8463 | 0.9198 | 0.2252 | 0.8701 |
| FormalASR-0.6B (本文) | 0.1770 | 0.8769 | 0.9359 | 0.1603 | 0.8948 |
| Qwen3-ASR-1.7B (基线) | 0.2460 | 0.8571 | 0.9268 | 0.2393 | 0.8510 |
| FormalASR-1.7B (本文) | 0.1606 | 0.8896 | 0.9439 | 0.1499 | 0.9029 |
| Whisper large-v3 | 0.3631 | 0.7393 | 0.8538 | 0.3302 | 0.7643 |
关键发现:
- 性能提升:FormalASR-1.7B在跨域测试集上实现了37.4%的CER相对降低(从0.2393降至0.1499),同时ROUGE-L和BERTScore均有显著提升,证明模型在去除口语化元素的同时有效保留了语义内容。FormalASR-0.6B在域内测试集上实现了31.4%的CER相对降低。
- 规模效应:1.7B模型在所有指标上一致优于0.6B模型,表明更大的解码器容量有利于更精细的语言风格转换,尤其体现在BERTScore指标上。
- 跨域泛化:在训练时未见过的27个领域(如讲座、访谈)的Speechio-Formal测试集上,模型依然保持强劲性能,显示了良好的泛化能力。
- 与Whisper对比:Whisper large-v3在所有指标上均落后于所有Qwen3-ASR变体,因其设计目标是逐字稿转录。
消融与分析实验: 表5:GGUF量化结果(WenetSpeech-Formal测试集)
| 模型 | 精度 | 模型大小 | CER ↓ | ROUGE-L ↑ | BERTScore ↑ |
|---|---|---|---|---|---|
| FormalASR-0.6B | BF16 | 1.46 GB | 0.1770 | 0.8769 | 0.9359 |
| Q8_0 | 0.78 GB | 0.1775 | 0.8766 | 0.9357 | |
| Q4_K | 0.42 GB | 0.1969 | 0.8627 | 0.9281 | |
| FormalASR-1.7B | BF16 | 3.80 GB | 0.1606 | 0.8896 | 0.9439 |
| Q8_0 | 2.03 GB | 0.1607 | 0.8896 | 0.9438 | |
| Q4_K | 1.08 GB | 0.1744 | 0.8805 | 0.9392 |
量化分析:8-bit量化(Q8_0)几乎无损(CER变化小于0.1%),但模型体积减少近一半。4-bit量化(Q4_K)将模型压缩至约1GB,性能有适度下降(1.7B模型CER上升8.6%相对),但依然优于更小的0.6B原始模型。论文还提供了样本输出对比,展示量化不引入新的形式化错误,输出质量由模型容量决定。
表6:Bitsandbytes量化结果(WenetSpeech-Formal测试集)
| 模型 | 精度 | 模型大小 | CER ↓ | ROUGE-L ↑ | BERTScore ↑ |
|---|---|---|---|---|---|
| FormalASR-0.6B | BF16 | ~1.2 GB | 0.1770 | 0.8769 | 0.9359 |
| INT8 | ~0.6 GB | 0.1780 | 0.8761 | 0.9355 | |
| INT4 | ~0.3 GB | 0.3750 | 0.7582 | 0.8867 | |
| FormalASR-1.7B | BF16 | ~3.4 GB | 0.1606 | 0.8896 | 0.9439 |
| INT8 | ~1.7 GB | 0.1620 | 0.8887 | 0.9435 | |
| INT4 | ~0.85 GB | 0.2791 | 0.8104 | 0.9114 |
Bitsandbytes量化分析:INT8同样近似无损。但INT4(uniform absmax量化)导致严重的性能崩溃,远不如GGUF Q4_K(mixed-precision k-quants)。
表7:训练策略消融(1.7B模型,WenetSpeech-Formal测试集)
| 配置 | CER ↓ | ROUGE-L ↑ | BERTScore ↑ |
|---|---|---|---|
| 无微调 | 0.2460 | 0.8571 | 0.9268 |
| 仅SFT | 0.1606 | 0.8896 | 0.9439 |
| SFT + GRPO | 0.1609 | 0.8895 | 0.9438 |
消融发现:在SFT基础上引入GRPO(一种强化学习算法)进行进一步优化,结果与纯SFT几乎无差异。这表明,丰���的SFT监督数据已经让模型饱和,策略改进空间很小。
推理效率分析: 图2分析:左图显示FormalASR输出的平均token数(14.3-15.8)显著少于逐字稿基线(18.5),这是因为形式化过程自然去除了冗余token。右图显示,对于长句(20-29 token以上),FormalASR的解码延迟优势更加明显(差距达324-388ms),因为长句中通常包含更多可去除的口语成分,这种“长度缩短效应”使得端到端形式化方案在长语音场景下更具吸引力。
未直接对比的基线:论文未提供与当前主流的“ASR + LLM”两阶段流水线的直接性能(如WER/CER、语义相似度)和系统级指标(端到端延迟、内存占用)对比。论文仅在Table 1中进行了概念性对比。
🔬 细节详述
- 训练数据:
- 名称/来源:WenetSpeech-Formal(训练集969,201样本,域内测试集31,932样本),来源于WenetSpeech语料库;Speechio-Formal(测试集43,178样本),来源于Speechio基准数据。
- 规模:训练数据约969K样本,测试数据约43K样本。
- 预处理/数据增强:未提及特定的音频预处理(如降噪、归一化)。数据增强未提及。数据构建核心是文本增强:使用DeepSeek-V3.2将原始逐字稿改写为正式文本,并通过嵌入相似度、编辑距离等进行质量过滤(具体阈值未公开)。
- 损失函数:
- 名称:监督微调交叉熵损失(公式2)。
- 作用:训练解码器在给定音频和历史token的条件下,最大化生成正确目标正式文本token的概率。
- 训练策略:
- 优化器:AdamW。
- 学习率:峰值2×10⁻⁵,余弦衰减调度。
- Warmup:前5%的训练步数进行线性预热。
- 批大小:每设备batch size 4,梯度累积2步,有效全局batch size 16。
- 训练轮数:2个epoch。
- 训练精度:BF16。
- 关键超参数:模型规模:0.6B和1.7B参数。解码器架构基于Qwen LLM。音频编码器基于Whisper架构。
- 训练硬件:2块NVIDIA A800-SXM4-80GB GPU。启用了梯度检查点(gradient checkpointing)以节省显存。
- 推理细节:
- 解码策略:自回归解码(论文未明确说明是贪心、束搜索还是采样,从样本输出看可能是贪心或温度较低的采样)。
- 流式设置:未提及,论文聚焦于离线处理。
- 正则化或稳定训练技巧:启用了梯度检查点。未提及dropout、权重衰减等其他正则化技巧。
⚖️ 评分理由
创新性:2.0/3 论文提出了一个清晰且实际的问题(ASR口语化输出与下游需求不匹配),并给出了一个简洁有效的解决方案(端到端微调)。其创新在于将“风格转换”任务内化到ASR模型中,并为此构建了大规模数据集。然而,从技术方法上看,这是对现有强大基座模型(Qwen3-ASR)的直接微调,核心洞察(数据驱动的端到端学习)在NLP领域并不新颖。创新更多体现在应用场景的定义和数据集的构建上,而非模型架构或训练范式的突破。
技术严谨性:1.1/1.5 方法描述清晰,实验设置合理。训练细节(优化器、学习率、硬件)完整,损失函数为标准SFT损失,推导无误。主要不足在于:a) 缺少与“ASR+LLM”流水线的直接对比,削弱了其核心优势(单模型、低延迟)的实证说服力;b) 对模型内部“如何同时完成识别和形式化”的机理缺乏任何分析(如注意力可视化、错误分析),只是一个“黑箱”式的实证结果;c) 数据集构建中的质量过滤标准(如嵌入相似度阈值、编辑距离范围)未给出具体数值,影响他人复现其数据构建流程。
实验充分性:1.2/1.5 实验设计总体扎实。包含了域内与跨域两个评测集,使用了互补的多个指标(CER, ROUGE-L, BERTScore)。进行了充分的消融:对比不同规模模型、不同量化方案(GGUF与bitsandbytes)、不同训练策略(SFT vs SFT+GRPO),并分析了推理效率。基线选择包括原版模型和Whisper,具有代表性。主要缺陷是缺少与最相关的“ASR+LLM”方案的系统级对比,这是一个关键的缺席实验,使得“端到端更优”的结论缺乏直接证据支撑。
清晰度:0.8/1 论文结构完整,写作流畅,逻辑清晰。表格和图表(如图2)有效地支撑了结论。主要扣分点在于:a) 缺少一个清晰的系统架构图来可视化其端到端流程;b) 数据集构建中的质量过滤标准未给出具体数值,仅定性描述。
影响力:1.4/2 该工作对语音/音频领域有明确的实用价值。它直接解决了ASR输出可用性的痛点,提供了可部署的解决方案,并发布了高质量的资源(数据集、模型),有助于推动语音下游应用(如文档、会议系统)的发展。其影响力虽不及基础模型或算法的突破,但在解决具体工程问题、提升产品体验方面有较高价值。
开源:1.3/1.5 开源非常彻底,提供了代码仓库、两个规模的模型权重(0.6B和1.7B)、两个完整的数据集及其HuggingFace链接。这极大地促进了研究和应用。扣0.2分是因为未提及README文档的完善程度,以及是否提供了快速复现的脚本或配置示例。
可复现性:0.4/0.5 训练细节(超参数、硬件、代码链接)和模型/数据获取方式都非常明确,理论上他人可以完全复现实验。扣0.1分是因为数据集构建的某些具体过滤参数未公开,可能影响他人使用相同方法构建新数据集。
总分:6.5/10
🚨 局限与问题
1. 论文明确承认的局限:
- 未来工作包括多语言扩展、基于RLHF的形式优化、流式推理等。这暗示当前模型在语言覆盖、更精细的风格控制和实时性方面有提升空间。
2. 审稿人发现的潜在问题:
- 方法创新有限:核心贡献更偏向于应用和数据工程,而非方法论创新。对于寻求架构或理论突破的顶会读者,吸引力可能不足。
- 数据集依赖特定LLM:“正式文本”的定义和质量完全由DeepSeek-V3.2决定,这引入了潜在的偏见和上限。模型学到的可能是“模仿DeepSeek-V3.2的改写风格”,而非普适的“正式化”能力。论文未讨论此依赖可能带来的风险。
- 缺失关键对比实验:未与“ASR+LLM”(例如Whisper + 一个小型改写LLM)这一标准且强大的基线进行对比。后者可能在性能上更优或相当,而FormalASR的优势仅在于单模型部署。这个对比对于证明其核心价值(更低的延迟和内存占用)至关重要,仅靠Table 1的概念对比不够。
- 评估基准局限性:所有实验都在自建数据集上进行。虽然Speechio-Formal是跨域的,但“正式文本”的参考本身是由LLM生成的,而非人工精标注。在公开的、评估正式文本质量的现有基准上(如有)进行测试,会增强结果的说服力。
- 黑箱分析缺失:没有探究模型内部是否真的“理解”了口语化特征并去除了它们,还是仅仅通过某些捷径(如缩短输出)获得了更好的指标。需要一些定性分析(如错误分析、注意力可视化)来支持“同时学习识别和形式化”的论点。
- 数据集质量讨论不足:虽然提到了质量过滤,但未报告过滤的比例或质量评估。也未讨论LLM生成的“正式文本”参考本身可能包含的错误或风格偏差如何影响模型训练。
📷 论文图片

