FormalASR: End-to-End Spoken Chinese to Formal Text
📄 FormalASR: End-to-End Spoken Chinese to Formal Text #语音识别 #端到端 #语音大模型 #模型量化 #数据集 ✅ 6/10 | 前35% | #语音识别 | #端到端 | #语音大模型 #模型量化 | arxiv 学术质量 4.3/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Wanyi Ning、Yinshang Guo、Haitao Qian、Jiyuan Cheng、Weiyuan Feng、Yufei Zhang(所有作者机构均未在论文中说明) 💡 毒舌点评 精准定义了“语音转写结果不符合书写规范”这一真实工业痛点,并通过构建大规模数据集和端到端微调给出了一个直接解决方案。然而,论文的核心贡献在学术创新性上略显薄弱:它本质上是利用一个强大的LLM(DeepSeek-V3.2)生成伪标签,然后对现有的音频-语言模型(Qwen3-ASR)进行监督微调。这一范式在NLP和Speech领域已属常规操作,其新意更多体现在问题形式化和数据集构建上,而非算法或理论突破。论文在论证其“端侧优势”时,缺少与“ASR+LLM”流水线在关键指标(如延迟、内存)上的直接对比,使得其核心主张的说服力打了折扣。 📌 核心摘要 要解决什么问题:传统ASR系统输出包含口头禅、错误启动等不规范元素的逐字稿(verbatim transcript),不适合文档生成等下游任务。常用的两阶段ASR+LLM流水线方案部署复杂、延迟高,难以用于端侧设备。 方法核心:提出FormalASR,一个端到端模型,直接将中文口语语音映射为正式书面文本。为此,构建了两个大规模数据集(WenetSpeech-Formal, Speechio-Formal),通过LLM(DeepSeek-V3.2)改写原始逐字稿并经过质量过滤生成“口语-正式文本”对。基于Qwen3-ASR模型(0.6B和1.7B)在上述数据集上进行全参数监督微调(SFT)。 与已有方法相比新在哪里:首次尝试将紧凑的音频-语言模型端到端地微调用于中文的口语到正式文本转写,避免了推理时需要额外LLM的开销(如Table 1所示)。明确对比了传统ASR、ASR+LLM流水线和大型多模态模型(如GPT-4o),并构建了专用评测基准。 主要实验结果:FormalASR在WenetSpeech-Formal和Speechio-Formal测试集上,相比逐字稿基线(Qwen3-ASR),字符错误率(CER)最高降低了37.4%,同时ROUGE-L和BERTScore得到提升。量化实验显示,GGUF 8-bit量化几乎无损,4-bit量化在大幅压缩模型尺寸时性能下降可控。主要结果如下表所示: 模型 数据集 CER ↓ ROUGE-L ↑ BERTScore ↑ Qwen3-ASR-0.6B WenetSpeech-Formal 0.2581 0.8463 0.9198 FormalASR-0.6B (Ours) WenetSpeech-Formal 0.1770 0.8769 0.9359 Qwen3-ASR-1.7B WenetSpeech-Formal 0.2460 0.8571 0.9268 FormalASR-1.7B (Ours) WenetSpeech-Formal 0.1606 0.8896 0.9439 Whisper large-v3 WenetSpeech-Formal 0.3631 0.7393 0.8538 Qwen3-ASR-0.6B Speechio-Formal 0.2252 0.8701 0.9343 FormalASR-0.6B (Ours) Speechio-Formal 0.1603 0.8948 0.9481 Qwen3-ASR-1.7B Speechio-Formal 0.2393 0.8510 0.9108 FormalASR-1.7B (Ours) Speechio-Formal 0.1499 0.9029 0.9533 图2说明:此图展示了FormalASR-1.7B与基线Qwen3-ASR-1.7B在推理效率上的对比。左图显示,在WenetSpeech-Formal上,FormalASR的平均输出token数从18.5减少到14.3(减少22.8%),在Speechio-Formal上从18.5减少到15.8(减少14.3%)。右图显示,解码延迟随逐字稿句子长度(token数)增加而显著降低,在40-49 token的长句区间,延迟降低约388毫秒。 5. 实际意义:为端侧设备(如手机、嵌入式设备)提供了一种轻量、低延迟的语音转正式文本解决方案,省去了云端依赖和第二模型。GGUF量化后的模型(如1.7B模型的Q4_K版本仅1.08GB)进一步增强了端侧部署可行性。 6. 主要局限性:1)方法本质上是利用LLM生成的数据对现有模型进行领域微调,创新性有限;2)“正式文本”的定义和监督信号完全依赖DeepSeek-V3.2的生成结果,存在偏见或误差传播风险,论文未对生成标签质量进行人工验证;3)实验未与最强的“ASR+LLM”流水线方案(如Qwen3-ASR接一个通用LLM)进行直接的延迟、内存和最终文本质量对比;4)主要评估指标CER、ROUGE-L衡量的是与LLM生成参考文本的匹配度,未评估生成文本本身的语法自然度、连贯性或用户偏好。 ...