📄 FormalASR: End-to-End Spoken Chinese to Formal Text

#语音识别 #端到端 #语音大模型 #模型量化 #数据集

✅ 6/10 | 前35% | #语音识别 | #端到端 | #语音大模型 #模型量化 | arxiv

学术质量 4.3/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度高

👥 作者与机构

第一作者：未说明
通讯作者：未说明
作者列表：Wanyi Ning、Yinshang Guo、Haitao Qian、Jiyuan Cheng、Weiyuan Feng、Yufei Zhang（所有作者机构均未在论文中说明）

💡 毒舌点评

精准定义了“语音转写结果不符合书写规范”这一真实工业痛点，并通过构建大规模数据集和端到端微调给出了一个直接解决方案。然而，论文的核心贡献在学术创新性上略显薄弱：它本质上是利用一个强大的LLM（DeepSeek-V3.2）生成伪标签，然后对现有的音频-语言模型（Qwen3-ASR）进行监督微调。这一范式在NLP和Speech领域已属常规操作，其新意更多体现在问题形式化和数据集构建上，而非算法或理论突破。论文在论证其“端侧优势”时，缺少与“ASR+LLM”流水线在关键指标（如延迟、内存）上的直接对比，使得其核心主张的说服力打了折扣。

📌 核心摘要

要解决什么问题：传统ASR系统输出包含口头禅、错误启动等不规范元素的逐字稿（verbatim transcript），不适合文档生成等下游任务。常用的两阶段ASR+LLM流水线方案部署复杂、延迟高，难以用于端侧设备。
方法核心：提出FormalASR，一个端到端模型，直接将中文口语语音映射为正式书面文本。为此，构建了两个大规模数据集（WenetSpeech-Formal， Speechio-Formal），通过LLM（DeepSeek-V3.2）改写原始逐字稿并经过质量过滤生成“口语-正式文本”对。基于Qwen3-ASR模型（0.6B和1.7B）在上述数据集上进行全参数监督微调（SFT）。
与已有方法相比新在哪里：首次尝试将紧凑的音频-语言模型端到端地微调用于中文的口语到正式文本转写，避免了推理时需要额外LLM的开销（如Table 1所示）。明确对比了传统ASR、ASR+LLM流水线和大型多模态模型（如GPT-4o），并构建了专用评测基准。
主要实验结果：FormalASR在WenetSpeech-Formal和Speechio-Formal测试集上，相比逐字稿基线（Qwen3-ASR），字符错误率（CER）最高降低了37.4%，同时ROUGE-L和BERTScore得到提升。量化实验显示，GGUF 8-bit量化几乎无损，4-bit量化在大幅压缩模型尺寸时性能下降可控。主要结果如下表所示：

模型	数据集	CER ↓	ROUGE-L ↑	BERTScore ↑
Qwen3-ASR-0.6B	WenetSpeech-Formal	0.2581	0.8463	0.9198
FormalASR-0.6B (Ours)	WenetSpeech-Formal	0.1770	0.8769	0.9359
Qwen3-ASR-1.7B	WenetSpeech-Formal	0.2460	0.8571	0.9268
FormalASR-1.7B (Ours)	WenetSpeech-Formal	0.1606	0.8896	0.9439
Whisper large-v3	WenetSpeech-Formal	0.3631	0.7393	0.8538
Qwen3-ASR-0.6B	Speechio-Formal	0.2252	0.8701	0.9343
FormalASR-0.6B (Ours)	Speechio-Formal	0.1603	0.8948	0.9481
Qwen3-ASR-1.7B	Speechio-Formal	0.2393	0.8510	0.9108
FormalASR-1.7B (Ours)	Speechio-Formal	0.1499	0.9029	0.9533

图2说明：此图展示了FormalASR-1.7B与基线Qwen3-ASR-1.7B在推理效率上的对比。左图显示，在WenetSpeech-Formal上，FormalASR的平均输出token数从18.5减少到14.3（减少22.8%），在Speechio-Formal上从18.5减少到15.8（减少14.3%）。右图显示，解码延迟随逐字稿句子长度（token数）增加而显著降低，在40-49 token的长句区间，延迟降低约388毫秒。 5. 实际意义：为端侧设备（如手机、嵌入式设备）提供了一种轻量、低延迟的语音转正式文本解决方案，省去了云端依赖和第二模型。GGUF量化后的模型（如1.7B模型的Q4_K版本仅1.08GB）进一步增强了端侧部署可行性。 6. 主要局限性：1）方法本质上是利用LLM生成的数据对现有模型进行领域微调，创新性有限；2）“正式文本”的定义和监督信号完全依赖DeepSeek-V3.2的生成结果，存在偏见或误差传播风险，论文未对生成标签质量进行人工验证；3）实验未与最强的“ASR+LLM”流水线方案（如Qwen3-ASR接一个通用LLM）进行直接的延迟、内存和最终文本质量对比；4）主要评估指标CER、ROUGE-L衡量的是与LLM生成参考文本的匹配度，未评估生成文本本身的语法自然度、连贯性或用户偏好。

🔗 开源详情

代码：https://github.com/TaurenMountain/FormalASR
模型权重：
- FormalASR-0.6B: https://huggingface.co/TaurenMountain/FormalASR-0.6B
- FormalASR-1.7B: https://huggingface.co/TaurenMountain/FormalASR-1.7B
数据集：
- WenetSpeech-Formal: https://huggingface.co/datasets/TaurenMountain/WenetSpeech-Formal
- Speechio-Formal: https://huggingface.co/datasets/TaurenMountain/Speechio-Formal
Demo：论文中未提及
复现材料：
- 训练配置：基于官方Qwen3-ASR检查点进行全参数监督微调，训练2个epoch，使用2个NVIDIA A800-SXM4-80GB GPU，BF16精度，开启梯度检查点，AdamW优化器，峰值学习率2e-5，余弦学习率调度，前5%步数线性warmup，每设备batch size 4，梯度累积2步（有效全局batch size 16）。
论文中引用的开源项目：
- Whisper: https://github.com/openai/whisper
- Qwen3-ASR: 论文中引用为“官方 Qwen3-ASR [12]”，未提供直接链接。
- SenseVoice: 论文中引用为[1]，未提供直接链接。
- DeepSeek-V3.2: 论文中引用为[4]，未提供直接链接。
- GGUF量化格式: 论文中引用为“GGUF format [6]”，未提供直接链接。
- bitsandbytes量化: 论文中引用为“bitsandbytes [5]”，未提供直接链接。

🏗️ 方法概述和架构

整体流程概述： FormalASR是一个端到端系统，目标是直接将中文语音波形映射为符合书面规范的正式文本，无需中间逐字稿生成和后续LLM处理。系统分为两个主要阶段：离线数据构建和在线模型训练与推理。
主要组件/模块详解：

数据构建模块（离线阶段）：
- 功能：从原始音频-逐字稿数据中，生成大规模、高质量的“音频-正式文本”监督对。
- 内部结构/实现：采用三阶段流水线。
  1. 逐字稿收集：使用来自WenetSpeech和Speechio数据集的原始音频及其对应的逐字稿（original_text）作为输入。这些逐字稿保留了填充词、错误启动等口语特征。
  2. LLM形式化：使用DeepSeek-V3.2作为“改写器”。通过设计特定提示（Prompt），指导LLM将original_text改写为正式书面中文（target_text）。改写过程旨在移除填充词和不流利现象、重组句子结构以符合书面规范、标准化标点与间距，并在保持语义的前提下纠正明显错误。
  3. 质量过滤：应用自动过滤机制丢弃低质量改写。过滤依据包括：a) 语义一致性：基于嵌入相似度判断target_text与original_text是否语义一致；b) 改写幅度：基于编辑距离，剔除改写幅度过小（无意义）或过大（可能产生幻觉）的样本；c) 错误检查：剔除包含明显错误或异常字符的文本。
- 输入输出：输入是WenetSpeech/Speechio中的音频-逐字稿对；输出是经过筛选的音频-正式文本对（即WenetSpeech-Formal和Speechio-Formal数据集）。
核心模型（训练与推理阶段）：
- 名称：FormalASR（基于Qwen3-ASR架构微调）。
- 功能：接收语音特征，直接自回归生成正式文本。
- 内部结构/实现：模型架构沿用Qwen3-ASR，包含两个核心部分：
  1. 音频编码器：采用“Whisper风格”的音频编码器，负责将输入的语音波形（或梅尔频谱图）转换为一系列音频特征向量（隐藏表示）。
  2. 语言解码器：采用“自回归Qwen解码器”（一个基于Transformer的语言模型解码器）。它接收音频编码器的输出，并以自回归方式（即逐个token生成）预测目标正式文本序列。训练时，采用标准的教师强制（teacher-forcing）策略和序列到序列的交叉熵损失函数： ℒSFT = -∑{t=1}^{T} log P_θ(y_t | x, y{<t}) 其中x是音频特征，y_t是目标正式文本的第t个token，y_{<t}是前t-1个token。该目标鼓励模型在一个统一框架内联合学习声学对齐、非流利现象移除、风格迁移和内容保持。微调时，模型权重初始化自预训练的Qwen3-ASR检查点，在构建的Formal数据集上进行全参数监督微调（SFT）。
- 输入输出：输入是语音波形；输出是模型解码生成的正式文本token序列，最终解码为文本。
解码与推理：推理时，给定音频输入，编码器提取特征，解码器基于特征直接生成正式文本。解码策略（如beam search）在论文中未明确说明，但与标准ASR解码一致。

组件间的数据流与交互：数据构建模块产出的“音频-正式文本”对，直接作为核心模型SFT阶段的训练数据（输入x，目标y）。在模型训练时，数据以音频波形和文本token序列的形式输入模型，通过交叉熵损失进行优化。在推理时，仅需音频波形输入核心模型，经过编码器和解码器的前向传播，直接得到正式文本输出，无需其他组件交互。
关键设计选择及动机：

选择端到端模型而非流水线：动机是降低推理延迟、内存占用和部署复杂度，使其适用于对资源敏感的端侧场景（如手机、嵌入式设备）。论文在Table 1中对此进行了对比。
选择监督微调（SFT）而非强化学习：动机是利用高质量、大规模的“金标准”数据进行高效、稳定的学习。论文附录A.2的消融实验表明，在密集监督信号下，GRPO等RL方法无法带来性能提升，验证了SFT在此任务上的充分性。
构建专用数据集：由于缺乏大规模公开的“语音-正式文本”平行语料，作者选择利用强大的LLM（DeepSeek-V3.2）从现有逐字稿数据中衍生出训练信号。这是一种在数据稀缺条件下启动任务的有效方案，但引入了对LLM质量的依赖。

架构图/流程图：论文中未提供模型整体的架构示意图。但论文提供了图2，展示了FormalASR-1.7B与基线在输出token数和解码延迟上的对比效率图，直观体现了其方法带来的推理优势。
专业术语解释：

逐字稿（Verbatim Transcription）：完全忠实于口语原话的转写，保留所有填充词、重复、错误启动和不规范语法。
端到端（End-to-End）：指模型在推理时，从原始输入（语音波形）直接映射到最终输出（正式文本），中间没有可分离的、需要独立运行的子模块（如先ASR后LLM）。
监督微调（Supervised Fine-Tuning, SFT）：在预训练模型的基础上，使用带有标签的数据集对模型参数进行进一步训练，使其适应特定任务。
GGUF量化：一种针对大语言模型的量化格式，支持多种精度（如Q8_0， Q4_K），旨在压缩模型大小以在CPU或边缘设备上高效推理。
BERTScore：一种评估指标，通过计算生成文本与参考文本在预训练BERT模型中的上下文嵌入余弦相似度，来衡量语义相似性，对改写具有鲁棒性。

非模型工作的处理：本文的核心贡献包含两部分：一是构建了大规模、专用的数据集（WenetSpeech-Formal和Speechio-Formal），填补了任务空白；二是对现有模型进行端到端微调并验证其在端侧部署的可行性。数据集构建是一项重要的系统性工程工作。

💡 核心创新点

问题形式化与任务定义：明确将“口语转正式文本”作为独立的端到端语音识别任务提出，而非ASR后的后处理步骤。论文通过Table 1清晰阐述了该任务与现有范式的区别。
大规模专用数据集构建与开源：首次构建并开源了WenetSpeech-Formal（969K训练样本）和Speechio-Formal（43K跨域测试样本）两个大规模中文数据集，为该任务提供了首次大规模监督资源和公开评估基准。
端侧部署验证：系统性地评估了端到端模型在GGUF和bitsandbytes量化方案下的性能与模型尺寸权衡（Table 5， Table 6），并量化了输出序列缩短带来的解码延迟收益（图2），验证了方案在资源受限设备上的可行性和高效性。

📊 实验结果

主实验：在WenetSpeech-Formal（域内）和Speechio-Formal（跨域）两个基准上，FormalASR（0.6B/1.7B）相比其逐字稿基线（Qwen3-ASR），CER相对降低最高达31.4%（域内，0.6B模型）和37.4%（跨域，1.7B模型），同时ROUGE-L和BERTScore均有提升，表明模型在消除冗余的同时保持了语义。具体结果见上文核心摘要中的完整表格。
量化实验（GGUF）：如Table 5所示，8-bit量化（Q8_0）在模型尺寸减半的情况下，性能几乎无损（1.7B模型CER相对变化<0.06%）。4-bit量化（Q4_K）在模型尺寸减少约72%时，性能有适度下降（1.7B模型CER相对增加约8.6%）。值得注意的是，量化后的1.7B模型仍优于未量化的0.6B模型。定性分析（Sample Output列）显示，1.7B模型在所有量化级别均输出正确文本，而0.6B模型在所有级别均保留冗余，表明输出质量上限由模型容量决定。
量化实验（bitsandbytes）：如Table 6所示，INT8量化性能接近无损，但INT4量化导致性能严重下降（CER相对增加超过74%），远不如GGUF的Q4_K量化方法，验证了混合精度量化（如GGUF的k-quants）的重要性。
效率分析：如图2所示，FormalASR-1.7B的输出序列平均缩短14%-23%，且对于长句（20 token以上），解码时间节省更为显著（最高约388毫秒），直接降低了推理成本。

🔬 细节详述

训练数据：WenetSpeech-Formal训练集，包含969,201个样本，由WenetSpeech语料库通过DeepSeek-V3.2改写及质量过滤得到。
损失函数：标准SFT交叉熵损失（公式2）。
训练策略：
- 模型初始化：基于官方Qwen3-ASR（0.6B和1.7B）检查点进行全参数微调。
- 学习率：峰值2e-5，采用余弦学习率调度。
- Warmup：前5%的训练步骤进行线性warmup。
- 优化器：AdamW。
- 批次设置：每设备batch size 4，梯度累积2步，有效全局batch size 16。
- 训练轮数：2个epoch。
- 精度与硬件：BF16精度，启用梯度检查点。使用2块NVIDIA A800-SXM4-80GB GPU。训练总时长未提及。
关键超参数：模型规模（0.6B， 1.7B）。未说明具体层数、隐藏维度等架构细节。
推理细节：解码策略未明确说明（通常为beam search）。量化评测使用了GGUF和bitsandbytes库。
消融实验：附录A.2探索了GRPO强化学习策略。在1.7B模型上，使用形式度奖励和语义保真度奖励进行GRPO，结果（Table 7）显示其性能（CER 0.1609）与SFT单独训练（CER 0.1606）几乎相同，表明密集SFT已使奖励饱和。

⚖️ 评分理由

创新性：1.0/3 论文清晰定义了问题并给出了端到端解决方案，但其核心方法是利用强大LLM生成伪标签对现有模型进行SFT，这在NLP/Speech领域属于常见实践。创新更多体现在任务形式化和数据集构建上，而非提出新的算法或理论洞见。论文声称“首次尝试”，但微调现有模型进行风格转换的工作已存在。
技术严谨性：1.5/2 实验设计总体合理，包括了域内/跨域测试、多种量化方案对比、效率分析和GRPO消融实验。主要的技术缺陷在于：1）训练数据的“金标准”完全由LLM生成，缺乏人工质量验证和偏见分析；2）未提供与最强基线（ASR+LLM流水线）在延迟、内存上的直接对比，这是支撑其“端侧优势”主张的关键缺失。
实验充分性：1.0/2 基线选择了预训练Qwen3-ASR和Whisper，具有代表性。数据集覆盖了训练集和跨域测试集。指标选择CER、ROUGE-L、BERTScore较为全面。但不足之处显著：1）缺少与“ASR+LLM”流水线方案在最终文本质量、延迟和内存上的直接对比，无法有力证明端到端模型的优势；2）评估指标均基于LLM生成的参考文本，未独立评估生成文本的语法自然度或人工偏好。
清晰度：0.8/1 论文结构清晰，问题、方法、实验划分明确。图表（如Table 1, 4, 5和Figure 2）信息量丰富，有效支撑了论点。写作流畅，贡献表述明确。轻微扣分点在于对“正式文本”定义的质量控制论述较简略，且未说明解码策略。
影响力：0.8/1 对工业界端侧语音应用（如会议记录、语音助手）有直接参考价值，开源数据集和模型降低了研究门槛。但方法依赖特定LLM的数据生成，且“SFT微调”范式本身推动学术前沿的贡献有限。
可复现性：0.9/1 开源情况优秀：提供了代码、0.6B/1.7B模型权重、两个数据集的下载链接。训练超参数、硬件环境、量化设置均有详细说明。附录提供了GRPO消融和另一种量化方法对比，增强了透明度。复现门槛较低。

🚨 局限与问题

论文明确承认的局限：作者在结论中提到了未来工作，包括多语言扩展、基于RLHF的正式度优化以及流式推理，这间接表明当前模型在多语言支持、形式化的可控性以及实时性方面有待提升。
审稿人发现的潜在问题：
- 关键基线对比缺失：未与直接的竞争对手——“ASR + LLM”流水线方案（例如，Qwen3-ASR接一个性能相当的LLM如Qwen2.5-7B）进行性能（CER, ROUGE-L等）、推理延迟、内存占用的直接对比。这是评估其宣称的“端侧优势”（单模型、低延迟、低内存）是否成立的最关键缺失。
- 数据构建风险与依赖：整个系统的监督信号（target_text）完全来源于DeepSeek-V3.2的生成，存在“错误放大”或“偏见引入”的风险。例如，LLM可能过度简化某些复杂表达或错误理解口语上下文。论文的质量过滤步骤可能无法完全避免此类问题，但缺乏对生成标签质量的任何人工验证或误差分析。
- 评估指标局限性：所有主要指标（CER， ROUGE-L， BERTScore）均衡量生成文本与“官方正式文本”（即LLM生成的参考）的匹配度。这无法评估生成文本本身的语法流畅度、连贯性，以及是否符合特定领域的文体规范。BERTScore虽部分缓解，但仍可能掩盖事实性错误或风格不当。
- “端到端”表述的潜在误导：严格来说，模型的训练高度依赖离线LLM生成的伪标签，并非完全自主学习的端到端。论文的“端到端”主要指推理时的单模型前向传播，这一点在表述上可以更精确，以避免将“数据构建依赖LLM”与“模型端到端”混淆。
- 泛化性验证有限：虽然进行了跨域测试（Speechio-Formal），但测试集仍在中文范围内，且领域分布可能与训练集有重叠。对于中文特有的、训练数据中覆盖不足的现象（如严重方言、高度专业领域的术语），模型的处理能力未知。

📷 论文图片

← 返回 2026-05-20 语音/音乐/音频论文速递

📄 FormalASR: End-to-End Spoken Chinese to Formal Text#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文