📄 FormalASR: End-to-End Spoken Chinese to Formal Text
#语音识别 #端到端 #语音大模型 #模型量化 #数据集
✅ 6/10 | 前35% | #语音识别 | #端到端 | #语音大模型 #模型量化 | arxiv
学术质量 4.3/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度 高
👥 作者与机构
- 第一作者:未说明
- 通讯作者:未说明
- 作者列表:Wanyi Ning、Yinshang Guo、Haitao Qian、Jiyuan Cheng、Weiyuan Feng、Yufei Zhang(所有作者机构均未在论文中说明)
💡 毒舌点评
精准定义了“语音转写结果不符合书写规范”这一真实工业痛点,并通过构建大规模数据集和端到端微调给出了一个直接解决方案。然而,论文的核心贡献在学术创新性上略显薄弱:它本质上是利用一个强大的LLM(DeepSeek-V3.2)生成伪标签,然后对现有的音频-语言模型(Qwen3-ASR)进行监督微调。这一范式在NLP和Speech领域已属常规操作,其新意更多体现在问题形式化和数据集构建上,而非算法或理论突破。论文在论证其“端侧优势”时,缺少与“ASR+LLM”流水线在关键指标(如延迟、内存)上的直接对比,使得其核心主张的说服力打了折扣。
📌 核心摘要
- 要解决什么问题:传统ASR系统输出包含口头禅、错误启动等不规范元素的逐字稿(verbatim transcript),不适合文档生成等下游任务。常用的两阶段ASR+LLM流水线方案部署复杂、延迟高,难以用于端侧设备。
- 方法核心:提出FormalASR,一个端到端模型,直接将中文口语语音映射为正式书面文本。为此,构建了两个大规模数据集(WenetSpeech-Formal, Speechio-Formal),通过LLM(DeepSeek-V3.2)改写原始逐字稿并经过质量过滤生成“口语-正式文本”对。基于Qwen3-ASR模型(0.6B和1.7B)在上述数据集上进行全参数监督微调(SFT)。
- 与已有方法相比新在哪里:首次尝试将紧凑的音频-语言模型端到端地微调用于中文的口语到正式文本转写,避免了推理时需要额外LLM的开销(如Table 1所示)。明确对比了传统ASR、ASR+LLM流水线和大型多模态模型(如GPT-4o),并构建了专用评测基准。
- 主要实验结果:FormalASR在WenetSpeech-Formal和Speechio-Formal测试集上,相比逐字稿基线(Qwen3-ASR),字符错误率(CER)最高降低了37.4%,同时ROUGE-L和BERTScore得到提升。量化实验显示,GGUF 8-bit量化几乎无损,4-bit量化在大幅压缩模型尺寸时性能下降可控。主要结果如下表所示:
| 模型 | 数据集 | CER ↓ | ROUGE-L ↑ | BERTScore ↑ |
|---|---|---|---|---|
| Qwen3-ASR-0.6B | WenetSpeech-Formal | 0.2581 | 0.8463 | 0.9198 |
| FormalASR-0.6B (Ours) | WenetSpeech-Formal | 0.1770 | 0.8769 | 0.9359 |
| Qwen3-ASR-1.7B | WenetSpeech-Formal | 0.2460 | 0.8571 | 0.9268 |
| FormalASR-1.7B (Ours) | WenetSpeech-Formal | 0.1606 | 0.8896 | 0.9439 |
| Whisper large-v3 | WenetSpeech-Formal | 0.3631 | 0.7393 | 0.8538 |
| Qwen3-ASR-0.6B | Speechio-Formal | 0.2252 | 0.8701 | 0.9343 |
| FormalASR-0.6B (Ours) | Speechio-Formal | 0.1603 | 0.8948 | 0.9481 |
| Qwen3-ASR-1.7B | Speechio-Formal | 0.2393 | 0.8510 | 0.9108 |
| FormalASR-1.7B (Ours) | Speechio-Formal | 0.1499 | 0.9029 | 0.9533 |
图2说明:此图展示了FormalASR-1.7B与基线Qwen3-ASR-1.7B在推理效率上的对比。左图显示,在WenetSpeech-Formal上,FormalASR的平均输出token数从18.5减少到14.3(减少22.8%),在Speechio-Formal上从18.5减少到15.8(减少14.3%)。右图显示,解码延迟随逐字稿句子长度(token数)增加而显著降低,在40-49 token的长句区间,延迟降低约388毫秒。 5. 实际意义:为端侧设备(如手机、嵌入式设备)提供了一种轻量、低延迟的语音转正式文本解决方案,省去了云端依赖和第二模型。GGUF量化后的模型(如1.7B模型的Q4_K版本仅1.08GB)进一步增强了端侧部署可行性。 6. 主要局限性:1)方法本质上是利用LLM生成的数据对现有模型进行领域微调,创新性有限;2)“正式文本”的定义和监督信号完全依赖DeepSeek-V3.2的生成结果,存在偏见或误差传播风险,论文未对生成标签质量进行人工验证;3)实验未与最强的“ASR+LLM”流水线方案(如Qwen3-ASR接一个通用LLM)进行直接的延迟、内存和最终文本质量对比;4)主要评估指标CER、ROUGE-L衡量的是与LLM生成参考文本的匹配度,未评估生成文本本身的语法自然度、连贯性或用户偏好。
🔗 开源详情
- 代码:https://github.com/TaurenMountain/FormalASR
- 模型权重:
- FormalASR-0.6B: https://huggingface.co/TaurenMountain/FormalASR-0.6B
- FormalASR-1.7B: https://huggingface.co/TaurenMountain/FormalASR-1.7B
- 数据集:
- WenetSpeech-Formal: https://huggingface.co/datasets/TaurenMountain/WenetSpeech-Formal
- Speechio-Formal: https://huggingface.co/datasets/TaurenMountain/Speechio-Formal
- Demo:论文中未提及
- 复现材料:
- 训练配置:基于官方Qwen3-ASR检查点进行全参数监督微调,训练2个epoch,使用2个NVIDIA A800-SXM4-80GB GPU,BF16精度,开启梯度检查点,AdamW优化器,峰值学习率2e-5,余弦学习率调度,前5%步数线性warmup,每设备batch size 4,梯度累积2步(有效全局batch size 16)。
- 论文中引用的开源项目:
- Whisper: https://github.com/openai/whisper
- Qwen3-ASR: 论文中引用为“官方 Qwen3-ASR [12]”,未提供直接链接。
- SenseVoice: 论文中引用为[1],未提供直接链接。
- DeepSeek-V3.2: 论文中引用为[4],未提供直接链接。
- GGUF量化格式: 论文中引用为“GGUF format [6]”,未提供直接链接。
- bitsandbytes量化: 论文中引用为“bitsandbytes [5]”,未提供直接链接。
🏗️ 方法概述和架构
整体流程概述: FormalASR是一个端到端系统,目标是直接将中文语音波形映射为符合书面规范的正式文本,无需中间逐字稿生成和后续LLM处理。系统分为两个主要阶段:离线数据构建和在线模型训练与推理。
主要组件/模块详解:
- 数据构建模块(离线阶段):
- 功能:从原始音频-逐字稿数据中,生成大规模、高质量的“音频-正式文本”监督对。
- 内部结构/实现:采用三阶段流水线。
- 逐字稿收集:使用来自WenetSpeech和Speechio数据集的原始音频及其对应的逐字稿(
original_text)作为输入。这些逐字稿保留了填充词、错误启动等口语特征。 - LLM形式化:使用DeepSeek-V3.2作为“改写器”。通过设计特定提示(Prompt),指导LLM将
original_text改写为正式书面中文(target_text)。改写过程旨在移除填充词和不流利现象、重组句子结构以符合书面规范、标准化标点与间距,并在保持语义的前提下纠正明显错误。 - 质量过滤:应用自动过滤机制丢弃低质量改写。过滤依据包括:a) 语义一致性:基于嵌入相似度判断
target_text与original_text是否语义一致;b) 改写幅度:基于编辑距离,剔除改写幅度过小(无意义)或过大(可能产生幻觉)的样本;c) 错误检查:剔除包含明显错误或异常字符的文本。
- 逐字稿收集:使用来自WenetSpeech和Speechio数据集的原始音频及其对应的逐字稿(
- 输入输出:输入是WenetSpeech/Speechio中的音频-逐字稿对;输出是经过筛选的音频-正式文本对(即WenetSpeech-Formal和Speechio-Formal数据集)。
- 核心模型(训练与推理阶段):
- 名称:FormalASR(基于Qwen3-ASR架构微调)。
- 功能:接收语音特征,直接自回归生成正式文本。
- 内部结构/实现:模型架构沿用Qwen3-ASR,包含两个核心部分:
- 音频编码器:采用“Whisper风格”的音频编码器,负责将输入的语音波形(或梅尔频谱图)转换为一系列音频特征向量(隐藏表示)。
- 语言解码器:采用“自回归Qwen解码器”(一个基于Transformer的语言模型解码器)。它接收音频编码器的输出,并以自回归方式(即逐个token生成)预测目标正式文本序列。 训练时,采用标准的教师强制(teacher-forcing)策略和序列到序列的交叉熵损失函数: ℒSFT = -∑{t=1}^{T} log P_θ(y_t | x, y{<t}) 其中x是音频特征,y_t是目标正式文本的第t个token,y_{<t}是前t-1个token。该目标鼓励模型在一个统一框架内联合学习声学对齐、非流利现象移除、风格迁移和内容保持。微调时,模型权重初始化自预训练的Qwen3-ASR检查点,在构建的Formal数据集上进行全参数监督微调(SFT)。
- 输入输出:输入是语音波形;输出是模型解码生成的正式文本token序列,最终解码为文本。
- 解码与推理:推理时,给定音频输入,编码器提取特征,解码器基于特征直接生成正式文本。解码策略(如beam search)在论文中未明确说明,但与标准ASR解码一致。
组件间的数据流与交互: 数据构建模块产出的“音频-正式文本”对,直接作为核心模型SFT阶段的训练数据(输入x,目标y)。在模型训练时,数据以音频波形和文本token序列的形式输入模型,通过交叉熵损失进行优化。在推理时,仅需音频波形输入核心模型,经过编码器和解码器的前向传播,直接得到正式文本输出,无需其他组件交互。
关键设计选择及动机:
- 选择端到端模型而非流水线:动机是降低推理延迟、内存占用和部署复杂度,使其适用于对资源敏感的端侧场景(如手机、嵌入式设备)。论文在Table 1中对此进行了对比。
- 选择监督微调(SFT)而非强化学习:动机是利用高质量、大规模的“金标准”数据进行高效、稳定的学习。论文附录A.2的消融实验表明,在密集监督信号下,GRPO等RL方法无法带来性能提升,验证了SFT在此任务上的充分性。
- 构建专用数据集:由于缺乏大规模公开的“语音-正式文本”平行语料,作者选择利用强大的LLM(DeepSeek-V3.2)从现有逐字稿数据中衍生出训练信号。这是一种在数据稀缺条件下启动任务的有效方案,但引入了对LLM质量的依赖。
架构图/流程图: 论文中未提供模型整体的架构示意图。但论文提供了图2,展示了FormalASR-1.7B与基线在输出token数和解码延迟上的对比效率图,直观体现了其方法带来的推理优势。
专业术语解释:
- 逐字稿(Verbatim Transcription):完全忠实于口语原话的转写,保留所有填充词、重复、错误启动和不规范语法。
- 端到端(End-to-End):指模型在推理时,从原始输入(语音波形)直接映射到最终输出(正式文本),中间没有可分离的、需要独立运行的子模块(如先ASR后LLM)。
- 监督微调(Supervised Fine-Tuning, SFT):在预训练模型的基础上,使用带有标签的数据集对模型参数进行进一步训练,使其适应特定任务。
- GGUF量化:一种针对大语言模型的量化格式,支持多种精度(如Q8_0, Q4_K),旨在压缩模型大小以在CPU或边缘设备上高效推理。
- BERTScore:一种评估指标,通过计算生成文本与参考文本在预训练BERT模型中的上下文嵌入余弦相似度,来衡量语义相似性,对改写具有鲁棒性。
- 非模型工作的处理: 本文的核心贡献包含两部分:一是构建了大规模、专用的数据集(WenetSpeech-Formal和Speechio-Formal),填补了任务空白;二是对现有模型进行端到端微调并验证其在端侧部署的可行性。数据集构建是一项重要的系统性工程工作。
💡 核心创新点
- 问题形式化与任务定义:明确将“口语转正式文本”作为独立的端到端语音识别任务提出,而非ASR后的后处理步骤。论文通过Table 1清晰阐述了该任务与现有范式的区别。
- 大规模专用数据集构建与开源:首次构建并开源了WenetSpeech-Formal(969K训练样本)和Speechio-Formal(43K跨域测试样本)两个大规模中文数据集,为该任务提供了首次大规模监督资源和公开评估基准。
- 端侧部署验证:系统性地评估了端到端模型在GGUF和bitsandbytes量化方案下的性能与模型尺寸权衡(Table 5, Table 6),并量化了输出序列缩短带来的解码延迟收益(图2),验证了方案在资源受限设备上的可行性和高效性。
📊 实验结果
- 主实验:在WenetSpeech-Formal(域内)和Speechio-Formal(跨域)两个基准上,FormalASR(0.6B/1.7B)相比其逐字稿基线(Qwen3-ASR),CER相对降低最高达31.4%(域内,0.6B模型)和37.4%(跨域,1.7B模型),同时ROUGE-L和BERTScore均有提升,表明模型在消除冗余的同时保持了语义。具体结果见上文核心摘要中的完整表格。
- 量化实验(GGUF):如Table 5所示,8-bit量化(Q8_0)在模型尺寸减半的情况下,性能几乎无损(1.7B模型CER相对变化<0.06%)。4-bit量化(Q4_K)在模型尺寸减少约72%时,性能有适度下降(1.7B模型CER相对增加约8.6%)。值得注意的是,量化后的1.7B模型仍优于未量化的0.6B模型。定性分析(Sample Output列)显示,1.7B模型在所有量化级别均输出正确文本,而0.6B模型在所有级别均保留冗余,表明输出质量上限由模型容量决定。
- 量化实验(bitsandbytes):如Table 6所示,INT8量化性能接近无损,但INT4量化导致性能严重下降(CER相对增加超过74%),远不如GGUF的Q4_K量化方法,验证了混合精度量化(如GGUF的k-quants)的重要性。
- 效率分析:如图2所示,FormalASR-1.7B的输出序列平均缩短14%-23%,且对于长句(20 token以上),解码时间节省更为显著(最高约388毫秒),直接降低了推理成本。
🔬 细节详述
- 训练数据:WenetSpeech-Formal训练集,包含969,201个样本,由WenetSpeech语料库通过DeepSeek-V3.2改写及质量过滤得到。
- 损失函数:标准SFT交叉熵损失(公式2)。
- 训练策略:
- 模型初始化:基于官方Qwen3-ASR(0.6B和1.7B)检查点进行全参数微调。
- 学习率:峰值2e-5,采用余弦学习率调度。
- Warmup:前5%的训练步骤进行线性warmup。
- 优化器:AdamW。
- 批次设置:每设备batch size 4,梯度累积2步,有效全局batch size 16。
- 训练轮数:2个epoch。
- 精度与硬件:BF16精度,启用梯度检查点。使用2块NVIDIA A800-SXM4-80GB GPU。训练总时长未提及。
- 关键超参数:模型规模(0.6B, 1.7B)。未说明具体层数、隐藏维度等架构细节。
- 推理细节:解码策略未明确说明(通常为beam search)。量化评测使用了GGUF和bitsandbytes库。
- 消融实验:附录A.2探索了GRPO强化学习策略。在1.7B模型上,使用形式度奖励和语义保真度奖励进行GRPO,结果(Table 7)显示其性能(CER 0.1609)与SFT单独训练(CER 0.1606)几乎相同,表明密集SFT已使奖励饱和。
⚖️ 评分理由
- 创新性:1.0/3 论文清晰定义了问题并给出了端到端解决方案,但其核心方法是利用强大LLM生成伪标签对现有模型进行SFT,这在NLP/Speech领域属于常见实践。创新更多体现在任务形式化和数据集构建上,而非提出新的算法或理论洞见。论文声称“首次尝试”,但微调现有模型进行风格转换的工作已存在。
- 技术严谨性:1.5/2 实验设计总体合理,包括了域内/跨域测试、多种量化方案对比、效率分析和GRPO消融实验。主要的技术缺陷在于:1)训练数据的“金标准”完全由LLM生成,缺乏人工质量验证和偏见分析;2)未提供与最强基线(ASR+LLM流水线)在延迟、内存上的直接对比,这是支撑其“端侧优势”主张的关键缺失。
- 实验充分性:1.0/2 基线选择了预训练Qwen3-ASR和Whisper,具有代表性。数据集覆盖了训练集和跨域测试集。指标选择CER、ROUGE-L、BERTScore较为全面。但不足之处显著:1)缺少与“ASR+LLM”流水线方案在最终文本质量、延迟和内存上的直接对比,无法有力证明端到端模型的优势;2)评估指标均基于LLM生成的参考文本,未独立评估生成文本的语法自然度或人工偏好。
- 清晰度:0.8/1 论文结构清晰,问题、方法、实验划分明确。图表(如Table 1, 4, 5和Figure 2)信息量丰富,有效支撑了论点。写作流畅,贡献表述明确。轻微扣分点在于对“正式文本”定义的质量控制论述较简略,且未说明解码策略。
- 影响力:0.8/1 对工业界端侧语音应用(如会议记录、语音助手)有直接参考价值,开源数据集和模型降低了研究门槛。但方法依赖特定LLM的数据生成,且“SFT微调”范式本身推动学术前沿的贡献有限。
- 可复现性:0.9/1 开源情况优秀:提供了代码、0.6B/1.7B模型权重、两个数据集的下载链接。训练超参数、硬件环境、量化设置均有详细说明。附录提供了GRPO消融和另一种量化方法对比,增强了透明度。复现门槛较低。
🚨 局限与问题
- 论文明确承认的局限:作者在结论中提到了未来工作,包括多语言扩展、基于RLHF的正式度优化以及流式推理,这间接表明当前模型在多语言支持、形式化的可控性以及实时性方面有待提升。
- 审稿人发现的潜在问题:
- 关键基线对比缺失:未与直接的竞争对手——“ASR + LLM”流水线方案(例如,Qwen3-ASR接一个性能相当的LLM如Qwen2.5-7B)进行性能(CER, ROUGE-L等)、推理延迟、内存占用的直接对比。这是评估其宣称的“端侧优势”(单模型、低延迟、低内存)是否成立的最关键缺失。
- 数据构建风险与依赖:整个系统的监督信号(
target_text)完全来源于DeepSeek-V3.2的生成,存在“错误放大”或“偏见引入”的风险。例如,LLM可能过度简化某些复杂表达或错误理解口语上下文。论文的质量过滤步骤可能无法完全避免此类问题,但缺乏对生成标签质量的任何人工验证或误差分析。 - 评估指标局限性:所有主要指标(CER, ROUGE-L, BERTScore)均衡量生成文本与“官方正式文本”(即LLM生成的参考)的匹配度。这无法评估生成文本本身的语法流畅度、连贯性,以及是否符合特定领域的文体规范。BERTScore虽部分缓解,但仍可能掩盖事实性错误或风格不当。
- “端到端”表述的潜在误导:严格来说,模型的训练高度依赖离线LLM生成的伪标签,并非完全自主学习的端到端。论文的“端到端”主要指推理时的单模型前向传播,这一点在表述上可以更精确,以避免将“数据构建依赖LLM”与“模型端到端”混淆。
- 泛化性验证有限:虽然进行了跨域测试(Speechio-Formal),但测试集仍在中文范围内,且领域分布可能与训练集有重叠。对于中文特有的、训练数据中覆盖不足的现象(如严重方言、高度专业领域的术语),模型的处理能力未知。
📷 论文图片

