FormalASR: End-to-End Spoken Chinese to Formal Text
📄 FormalASR: End-to-End Spoken Chinese to Formal Text #语音识别 #端到端 #模型量化 #数据集 🔥 8.2/10 | 前25% | #语音识别 | #端到端 | #模型量化 #数据集 | arxiv 学术质量 5.1/7 | 影响力 1.4/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Wanyi Ning, Yinshang Guo, Haitao Qian, Jiyuan Cheng, Weiyuan Feng, Yufei Zhang (论文未提供具体所属机构信息) 💡 毒舌点评 本文精准地瞄准了语音识别领域一个真实且被广泛忽视的痛点——口语化输出与下游正式文本需求之间的鸿沟,并提供了一个简洁有效的端到端解决方案。其最大亮点在于通过构建高质量的数据集(WenetSpeech-Formal与Speechio-Formal)和扎实的微调实验,有力地证明了在紧凑模型(0.6B和1.7B参数)中同时学习声学识别与语言风格转换的可行性。据作者称,这是首个将紧凑音频语言模型端到端微调用于中文口语转正式文本的工作。然而,其核心方法在技术上主要是对现有强大基座模型(Qwen3-ASR)的一次针对性的监督微调(SFT),而非架构层面的创新,这使得工作的原创深度稍显不足。虽然其发布的数据集和模型具有明确的实用价值,但作为一篇顶会论文,其在方法论上的突破性有限。 📌 核心摘要 问题:当前主流的自动语音识别(ASR)系统(如Whisper, Qwen3-ASR)主要输出忠实于口语的逐字稿(verbatim transcription),包含填充词、重复、不规范句式等,不适合会议纪要、文档编辑等需要正式书面文本的下游应用。传统的两阶段方案(ASR+LLM改写)增加了延迟、内存成本和部署难度,且难以应用于设备端。 方法核心:提出FormalASR,一个端到端框架,通过监督微调(SFT)将预训练的音频语言模型(Qwen3-ASR)直接适配于将语音转换为正式文本的任务。其关键在于构建了大规模的“口语-正式文本”配对数据集(WenetSpeech-Formal和Speechio-Formal),用于训练模型一次性完成识别与风格转换。 创新之处:与两阶段流水线或大型多模态模型(如GPT-4o-audio)不同,FormalASR采用单个紧凑模型(0.6B和1.7B参数)完成任务,适合设备端部署。据称这是首个将紧凑音频语言模型端到端微调用于中文口语转正式文本的工作。 实验结果:在构建的两个数据集上,FormalASR相比原始逐字稿基线取得了显著的性能提升。关键数据如下表所示。 模型 数据集 CER ↓ ROUGE-L ↑ BERTScore ↑ Qwen3-ASR-0.6B (基线) WenetSpeech-Formal (域内) 0.2581 0.8463 0.9198 FormalASR-0.6B (本文) WenetSpeech-Formal (域内) 0.1770 (-31.4%相对) 0.8769 0.9359 Qwen3-ASR-1.7B (基线) Speechio-Formal (跨域) 0.2393 0.8510 0.9108 FormalASR-1.7B (本文) Speechio-Formal (跨域) 0.1499 (-37.4%相对) 0.9029 0.9533 实际意义:为需要正式文本输出的语音交互场景(如文档编辑、会议记录)提供了一个低延迟、低内存、隐私安全的轻量级端侧解决方案。GGUF量化实验表明模型可以压缩到约1GB且性能损失可控,具备实际部署潜力。 主要局限:该方法高度依赖由第三方LLM(DeepSeek-V3.2)生成的“正式文本”参考,其质量上限和风格定义可能受限。此外,论文缺少与“ASR+LLM”两阶段流水线这一标准做法的直接性能与延迟对比。 🔗 开源详情 代码:https://github.com/TaurenMountain/FormalASR 模型权重: FormalASR-0.6B: https://huggingface.co/TaurenMountain/FormalASR-0.6B FormalASR-1.7B: https://huggingface.co/TaurenMountain/FormalASR-1.7B 数据集: WenetSpeech-Formal: https://huggingface.co/datasets/TaurenMountain/WenetSpeech-Formal Speechio-Formal: https://huggingface.co/datasets/TaurenMountain/Speechio-Formal Demo:论文中未提及 复现材料:论文中提供了具体的训练配置,可作为复现材料。训练基于Qwen3-ASR官方检查点初始化,使用全参数监督微调(SFT),在WenetSpeech-Formal训练集上训练2个epoch。训练环境为2张NVIDIA A800-SXM4-80GB GPU,采用BF16精度并启用梯度检查点。优化器为AdamW,使用余弦学习率调度,峰值学习率为2e-5,前5%的训练步骤进行线性预热。设备批大小为4,梯度累积2步,有效全局批大小为16。 论文中引用的开源项目: Whisper: https://github.com/openai/whisper Qwen3-ASR: https://github.com/QwenLM/Qwen3-ASR SenseVoice: https://github.com/FunAudioLLM/SenseVoice DeepSeek-V3.2: https://github.com/deepseek-ai/DeepSeek-V3 llama.cpp: https://github.com/ggerganov/llama.cpp bitsandbytes: https://github.com/TimDettmers/bitsandbytes 🏗️ 方法概述和架构 整体流程概述:FormalASR是一个端到端的单模型系统。给定输入音频波形,模型直接生成对应的正式书面文本序列,无需任何中间的逐字稿输出或后处理模块。其核心思想是将声学识别和语言风格转换耦合为一个统一的条件生成过程。 ...