📄 FormalASR: End-to-End Spoken Chinese to Formal Text

#语音识别 #端到端 #语音大模型 #模型量化 #数据集

6/10 | 前35% | #语音识别 | #端到端 | #语音大模型 #模型量化 | arxiv

学术质量 4.3/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度 高

👥 作者与机构

  • 第一作者:未说明
  • 通讯作者:未说明
  • 作者列表:Wanyi Ning、Yinshang Guo、Haitao Qian、Jiyuan Cheng、Weiyuan Feng、Yufei Zhang(所有作者机构均未在论文中说明)

💡 毒舌点评

精准定义了“语音转写结果不符合书写规范”这一真实工业痛点,并通过构建大规模数据集和端到端微调给出了一个直接解决方案。然而,论文的核心贡献在学术创新性上略显薄弱:它本质上是利用一个强大的LLM(DeepSeek-V3.2)生成伪标签,然后对现有的音频-语言模型(Qwen3-ASR)进行监督微调。这一范式在NLP和Speech领域已属常规操作,其新意更多体现在问题形式化和数据集构建上,而非算法或理论突破。论文在论证其“端侧优势”时,缺少与“ASR+LLM”流水线在关键指标(如延迟、内存)上的直接对比,使得其核心主张的说服力打了折扣。

📌 核心摘要

  1. 要解决什么问题:传统ASR系统输出包含口头禅、错误启动等不规范元素的逐字稿(verbatim transcript),不适合文档生成等下游任务。常用的两阶段ASR+LLM流水线方案部署复杂、延迟高,难以用于端侧设备。
  2. 方法核心:提出FormalASR,一个端到端模型,直接将中文口语语音映射为正式书面文本。为此,构建了两个大规模数据集(WenetSpeech-Formal, Speechio-Formal),通过LLM(DeepSeek-V3.2)改写原始逐字稿并经过质量过滤生成“口语-正式文本”对。基于Qwen3-ASR模型(0.6B和1.7B)在上述数据集上进行全参数监督微调(SFT)。
  3. 与已有方法相比新在哪里:首次尝试将紧凑的音频-语言模型端到端地微调用于中文的口语到正式文本转写,避免了推理时需要额外LLM的开销(如Table 1所示)。明确对比了传统ASR、ASR+LLM流水线和大型多模态模型(如GPT-4o),并构建了专用评测基准。
  4. 主要实验结果:FormalASR在WenetSpeech-Formal和Speechio-Formal测试集上,相比逐字稿基线(Qwen3-ASR),字符错误率(CER)最高降低了37.4%,同时ROUGE-L和BERTScore得到提升。量化实验显示,GGUF 8-bit量化几乎无损,4-bit量化在大幅压缩模型尺寸时性能下降可控。主要结果如下表所示:
模型数据集CER ↓ROUGE-L ↑BERTScore ↑
Qwen3-ASR-0.6BWenetSpeech-Formal0.25810.84630.9198
FormalASR-0.6B (Ours)WenetSpeech-Formal0.17700.87690.9359
Qwen3-ASR-1.7BWenetSpeech-Formal0.24600.85710.9268
FormalASR-1.7B (Ours)WenetSpeech-Formal0.16060.88960.9439
Whisper large-v3WenetSpeech-Formal0.36310.73930.8538
Qwen3-ASR-0.6BSpeechio-Formal0.22520.87010.9343
FormalASR-0.6B (Ours)Speechio-Formal0.16030.89480.9481
Qwen3-ASR-1.7BSpeechio-Formal0.23930.85100.9108
FormalASR-1.7B (Ours)Speechio-Formal0.14990.90290.9533

图2说明:此图展示了FormalASR-1.7B与基线Qwen3-ASR-1.7B在推理效率上的对比。左图显示,在WenetSpeech-Formal上,FormalASR的平均输出token数从18.5减少到14.3(减少22.8%),在Speechio-Formal上从18.5减少到15.8(减少14.3%)。右图显示,解码延迟随逐字稿句子长度(token数)增加而显著降低,在40-49 token的长句区间,延迟降低约388毫秒。 5. 实际意义:为端侧设备(如手机、嵌入式设备)提供了一种轻量、低延迟的语音转正式文本解决方案,省去了云端依赖和第二模型。GGUF量化后的模型(如1.7B模型的Q4_K版本仅1.08GB)进一步增强了端侧部署可行性。 6. 主要局限性:1)方法本质上是利用LLM生成的数据对现有模型进行领域微调,创新性有限;2)“正式文本”的定义和监督信号完全依赖DeepSeek-V3.2的生成结果,存在偏见或误差传播风险,论文未对生成标签质量进行人工验证;3)实验未与最强的“ASR+LLM”流水线方案(如Qwen3-ASR接一个通用LLM)进行直接的延迟、内存和最终文本质量对比;4)主要评估指标CER、ROUGE-L衡量的是与LLM生成参考文本的匹配度,未评估生成文本本身的语法自然度、连贯性或用户偏好。

🔗 开源详情

🏗️ 方法概述和架构

  1. 整体流程概述: FormalASR是一个端到端系统,目标是直接将中文语音波形映射为符合书面规范的正式文本,无需中间逐字稿生成和后续LLM处理。系统分为两个主要阶段:离线数据构建和在线模型训练与推理。

  2. 主要组件/模块详解:

  • 数据构建模块(离线阶段):
    • 功能:从原始音频-逐字稿数据中,生成大规模、高质量的“音频-正式文本”监督对。
    • 内部结构/实现:采用三阶段流水线。
      1. 逐字稿收集:使用来自WenetSpeech和Speechio数据集的原始音频及其对应的逐字稿(original_text)作为输入。这些逐字稿保留了填充词、错误启动等口语特征。
      2. LLM形式化:使用DeepSeek-V3.2作为“改写器”。通过设计特定提示(Prompt),指导LLM将original_text改写为正式书面中文(target_text)。改写过程旨在移除填充词和不流利现象、重组句子结构以符合书面规范、标准化标点与间距,并在保持语义的前提下纠正明显错误。
      3. 质量过滤:应用自动过滤机制丢弃低质量改写。过滤依据包括:a) 语义一致性:基于嵌入相似度判断target_textoriginal_text是否语义一致;b) 改写幅度:基于编辑距离,剔除改写幅度过小(无意义)或过大(可能产生幻觉)的样本;c) 错误检查:剔除包含明显错误或异常字符的文本。
    • 输入输出:输入是WenetSpeech/Speechio中的音频-逐字稿对;输出是经过筛选的音频-正式文本对(即WenetSpeech-Formal和Speechio-Formal数据集)。
  • 核心模型(训练与推理阶段):
    • 名称:FormalASR(基于Qwen3-ASR架构微调)。
    • 功能:接收语音特征,直接自回归生成正式文本。
    • 内部结构/实现:模型架构沿用Qwen3-ASR,包含两个核心部分:
      1. 音频编码器:采用“Whisper风格”的音频编码器,负责将输入的语音波形(或梅尔频谱图)转换为一系列音频特征向量(隐藏表示)。
      2. 语言解码器:采用“自回归Qwen解码器”(一个基于Transformer的语言模型解码器)。它接收音频编码器的输出,并以自回归方式(即逐个token生成)预测目标正式文本序列。 训练时,采用标准的教师强制(teacher-forcing)策略和序列到序列的交叉熵损失函数: ℒSFT = -∑{t=1}^{T} log P_θ(y_t | x, y{<t}) 其中x是音频特征,y_t是目标正式文本的第t个token,y_{<t}是前t-1个token。该目标鼓励模型在一个统一框架内联合学习声学对齐、非流利现象移除、风格迁移和内容保持。微调时,模型权重初始化自预训练的Qwen3-ASR检查点,在构建的Formal数据集上进行全参数监督微调(SFT)。
    • 输入输出:输入是语音波形;输出是模型解码生成的正式文本token序列,最终解码为文本。
  • 解码与推理:推理时,给定音频输入,编码器提取特征,解码器基于特征直接生成正式文本。解码策略(如beam search)在论文中未明确说明,但与标准ASR解码一致。
  1. 组件间的数据流与交互: 数据构建模块产出的“音频-正式文本”对,直接作为核心模型SFT阶段的训练数据(输入x,目标y)。在模型训练时,数据以音频波形和文本token序列的形式输入模型,通过交叉熵损失进行优化。在推理时,仅需音频波形输入核心模型,经过编码器和解码器的前向传播,直接得到正式文本输出,无需其他组件交互。

  2. 关键设计选择及动机:

  • 选择端到端模型而非流水线:动机是降低推理延迟、内存占用和部署复杂度,使其适用于对资源敏感的端侧场景(如手机、嵌入式设备)。论文在Table 1中对此进行了对比。
  • 选择监督微调(SFT)而非强化学习:动机是利用高质量、大规模的“金标准”数据进行高效、稳定的学习。论文附录A.2的消融实验表明,在密集监督信号下,GRPO等RL方法无法带来性能提升,验证了SFT在此任务上的充分性。
  • 构建专用数据集:由于缺乏大规模公开的“语音-正式文本”平行语料,作者选择利用强大的LLM(DeepSeek-V3.2)从现有逐字稿数据中衍生出训练信号。这是一种在数据稀缺条件下启动任务的有效方案,但引入了对LLM质量的依赖。
  1. 架构图/流程图: 论文中未提供模型整体的架构示意图。但论文提供了图2,展示了FormalASR-1.7B与基线在输出token数和解码延迟上的对比效率图,直观体现了其方法带来的推理优势。

  2. 专业术语解释:

  • 逐字稿(Verbatim Transcription):完全忠实于口语原话的转写,保留所有填充词、重复、错误启动和不规范语法。
  • 端到端(End-to-End):指模型在推理时,从原始输入(语音波形)直接映射到最终输出(正式文本),中间没有可分离的、需要独立运行的子模块(如先ASR后LLM)。
  • 监督微调(Supervised Fine-Tuning, SFT):在预训练模型的基础上,使用带有标签的数据集对模型参数进行进一步训练,使其适应特定任务。
  • GGUF量化:一种针对大语言模型的量化格式,支持多种精度(如Q8_0, Q4_K),旨在压缩模型大小以在CPU或边缘设备上高效推理。
  • BERTScore:一种评估指标,通过计算生成文本与参考文本在预训练BERT模型中的上下文嵌入余弦相似度,来衡量语义相似性,对改写具有鲁棒性。
  1. 非模型工作的处理: 本文的核心贡献包含两部分:一是构建了大规模、专用的数据集(WenetSpeech-Formal和Speechio-Formal),填补了任务空白;二是对现有模型进行端到端微调并验证其在端侧部署的可行性。数据集构建是一项重要的系统性工程工作。

💡 核心创新点

  1. 问题形式化与任务定义:明确将“口语转正式文本”作为独立的端到端语音识别任务提出,而非ASR后的后处理步骤。论文通过Table 1清晰阐述了该任务与现有范式的区别。
  2. 大规模专用数据集构建与开源:首次构建并开源了WenetSpeech-Formal(969K训练样本)和Speechio-Formal(43K跨域测试样本)两个大规模中文数据集,为该任务提供了首次大规模监督资源和公开评估基准。
  3. 端侧部署验证:系统性地评估了端到端模型在GGUF和bitsandbytes量化方案下的性能与模型尺寸权衡(Table 5, Table 6),并量化了输出序列缩短带来的解码延迟收益(图2),验证了方案在资源受限设备上的可行性和高效性。

📊 实验结果

  • 主实验:在WenetSpeech-Formal(域内)和Speechio-Formal(跨域)两个基准上,FormalASR(0.6B/1.7B)相比其逐字稿基线(Qwen3-ASR),CER相对降低最高达31.4%(域内,0.6B模型)和37.4%(跨域,1.7B模型),同时ROUGE-L和BERTScore均有提升,表明模型在消除冗余的同时保持了语义。具体结果见上文核心摘要中的完整表格。
  • 量化实验(GGUF):如Table 5所示,8-bit量化(Q8_0)在模型尺寸减半的情况下,性能几乎无损(1.7B模型CER相对变化<0.06%)。4-bit量化(Q4_K)在模型尺寸减少约72%时,性能有适度下降(1.7B模型CER相对增加约8.6%)。值得注意的是,量化后的1.7B模型仍优于未量化的0.6B模型。定性分析(Sample Output列)显示,1.7B模型在所有量化级别均输出正确文本,而0.6B模型在所有级别均保留冗余,表明输出质量上限由模型容量决定。
  • 量化实验(bitsandbytes):如Table 6所示,INT8量化性能接近无损,但INT4量化导致性能严重下降(CER相对增加超过74%),远不如GGUF的Q4_K量化方法,验证了混合精度量化(如GGUF的k-quants)的重要性。
  • 效率分析:如图2所示,FormalASR-1.7B的输出序列平均缩短14%-23%,且对于长句(20 token以上),解码时间节省更为显著(最高约388毫秒),直接降低了推理成本。

🔬 细节详述

  • 训练数据:WenetSpeech-Formal训练集,包含969,201个样本,由WenetSpeech语料库通过DeepSeek-V3.2改写及质量过滤得到。
  • 损失函数:标准SFT交叉熵损失(公式2)。
  • 训练策略:
    • 模型初始化:基于官方Qwen3-ASR(0.6B和1.7B)检查点进行全参数微调。
    • 学习率:峰值2e-5,采用余弦学习率调度。
    • Warmup:前5%的训练步骤进行线性warmup。
    • 优化器:AdamW。
    • 批次设置:每设备batch size 4,梯度累积2步,有效全局batch size 16。
    • 训练轮数:2个epoch。
    • 精度与硬件:BF16精度,启用梯度检查点。使用2块NVIDIA A800-SXM4-80GB GPU。训练总时长未提及。
  • 关键超参数:模型规模(0.6B, 1.7B)。未说明具体层数、隐藏维度等架构细节。
  • 推理细节:解码策略未明确说明(通常为beam search)。量化评测使用了GGUF和bitsandbytes库。
  • 消融实验:附录A.2探索了GRPO强化学习策略。在1.7B模型上,使用形式度奖励和语义保真度奖励进行GRPO,结果(Table 7)显示其性能(CER 0.1609)与SFT单独训练(CER 0.1606)几乎相同,表明密集SFT已使奖励饱和。

⚖️ 评分理由

  • 创新性:1.0/3 论文清晰定义了问题并给出了端到端解决方案,但其核心方法是利用强大LLM生成伪标签对现有模型进行SFT,这在NLP/Speech领域属于常见实践。创新更多体现在任务形式化和数据集构建上,而非提出新的算法或理论洞见。论文声称“首次尝试”,但微调现有模型进行风格转换的工作已存在。
  • 技术严谨性:1.5/2 实验设计总体合理,包括了域内/跨域测试、多种量化方案对比、效率分析和GRPO消融实验。主要的技术缺陷在于:1)训练数据的“金标准”完全由LLM生成,缺乏人工质量验证和偏见分析;2)未提供与最强基线(ASR+LLM流水线)在延迟、内存上的直接对比,这是支撑其“端侧优势”主张的关键缺失。
  • 实验充分性:1.0/2 基线选择了预训练Qwen3-ASR和Whisper,具有代表性。数据集覆盖了训练集和跨域测试集。指标选择CER、ROUGE-L、BERTScore较为全面。但不足之处显著:1)缺少与“ASR+LLM”流水线方案在最终文本质量、延迟和内存上的直接对比,无法有力证明端到端模型的优势;2)评估指标均基于LLM生成的参考文本,未独立评估生成文本的语法自然度或人工偏好。
  • 清晰度:0.8/1 论文结构清晰,问题、方法、实验划分明确。图表(如Table 1, 4, 5和Figure 2)信息量丰富,有效支撑了论点。写作流畅,贡献表述明确。轻微扣分点在于对“正式文本”定义的质量控制论述较简略,且未说明解码策略。
  • 影响力:0.8/1 对工业界端侧语音应用(如会议记录、语音助手)有直接参考价值,开源数据集和模型降低了研究门槛。但方法依赖特定LLM的数据生成,且“SFT微调”范式本身推动学术前沿的贡献有限。
  • 可复现性:0.9/1 开源情况优秀:提供了代码、0.6B/1.7B模型权重、两个数据集的下载链接。训练超参数、硬件环境、量化设置均有详细说明。附录提供了GRPO消融和另一种量化方法对比,增强了透明度。复现门槛较低。

🚨 局限与问题

  1. 论文明确承认的局限:作者在结论中提到了未来工作,包括多语言扩展、基于RLHF的正式度优化以及流式推理,这间接表明当前模型在多语言支持、形式化的可控性以及实时性方面有待提升。
  2. 审稿人发现的潜在问题:
    • 关键基线对比缺失:未与直接的竞争对手——“ASR + LLM”流水线方案(例如,Qwen3-ASR接一个性能相当的LLM如Qwen2.5-7B)进行性能(CER, ROUGE-L等)、推理延迟、内存占用的直接对比。这是评估其宣称的“端侧优势”(单模型、低延迟、低内存)是否成立的最关键缺失。
    • 数据构建风险与依赖:整个系统的监督信号(target_text)完全来源于DeepSeek-V3.2的生成,存在“错误放大”或“偏见引入”的风险。例如,LLM可能过度简化某些复杂表达或错误理解口语上下文。论文的质量过滤步骤可能无法完全避免此类问题,但缺乏对生成标签质量的任何人工验证或误差分析。
    • 评估指标局限性:所有主要指标(CER, ROUGE-L, BERTScore)均衡量生成文本与“官方正式文本”(即LLM生成的参考)的匹配度。这无法评估生成文本本身的语法流畅度、连贯性,以及是否符合特定领域的文体规范。BERTScore虽部分缓解,但仍可能掩盖事实性错误或风格不当。
    • “端到端”表述的潜在误导:严格来说,模型的训练高度依赖离线LLM生成的伪标签,并非完全自主学习的端到端。论文的“端到端”主要指推理时的单模型前向传播,这一点在表述上可以更精确,以避免将“数据构建依赖LLM”与“模型端到端”混淆。
    • 泛化性验证有限:虽然进行了跨域测试(Speechio-Formal),但测试集仍在中文范围内,且领域分布可能与训练集有重叠。对于中文特有的、训练数据中覆盖不足的现象(如严重方言、高度专业领域的术语),模型的处理能力未知。

📷 论文图片

图1

图2


← 返回 2026-05-20 语音/音乐/音频论文速递