模型量化 | 语音/音乐/音频论文速递

Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR

📄 Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR #语音识别 #迁移学习 #预训练 #低资源 #模型量化 9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9/10 | 前25% | #语音识别 | #迁移学习 | #预训练 #低资源 | arxiv 👥 作者与机构作者：Nenad Banfic。机构：未在文中说明。 💡 毒舌点评这篇论文像一个一丝不苟的工程师，把“多语言初始化到底有没有用”这个实际问题，用控制变量法掰开揉碎了做实验。优点是实验网格设计得非常全面，数据、延迟、量化三个维度都扫了一遍，得出了一个实用的结论。但缺点也很明显：首先，这本质上是一项大规模的“消融实验”或“敏感性分析”，在方法创新性上相对有限；其次，结论的“普适性”存疑，所有实验都在自家0.6B的FastConformer RNN-T架构和有限的欧洲语言上完成，换个模型家族（比如Whisper大模型）或非欧洲语言（如中文、阿拉伯语），结论是否稳健？作者自己也承认了这一点。论文行文清晰，但部分讨论略显冗长，可进一步精炼。 📌 核心摘要本文系统研究了在流式自动语音识别（ASR）中，使用多语言（ML）或英语单语（EN）编码器作为初始化方案，其优势如何随目标语言数据规模、流式推理延迟以及部署量化而变化。核心发现是：多语言初始化的优势是一个“数据受限优势”，而非“延迟受限优势”。在FLEURS基准上，从100小时到2500小时数据，EN-ML的WER差距从+4.21个百分点单调衰减至+0.20个百分点，符合幂律模型（指数约0.92）。该优势在三个流式延迟层级（160ms， 560ms， 1120ms）间近似稳定。此外，4位权重量化导致编码器体积减少约3倍，平均WER仅增加约0.49个百分点，且与初始化选择独立。结论指出，初始化、延迟和量化决策在实践中可相互独立进行。 🔗 开源详情代码：论文中指出训练与评估代码作为补充材料包含，但未在文中提供具体的代码仓库URL（如GitHub链接）。 ...

FormalASR: End-to-End Spoken Chinese to Formal Text

📄 FormalASR: End-to-End Spoken Chinese to Formal Text #语音识别 #端到端 #模型量化 #数据集 🔥 8.2/10 | 前25% | #语音识别 | #端到端 | #模型量化 #数据集 | arxiv 学术质量 5.1/7 | 影响力 1.4/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Wanyi Ning, Yinshang Guo, Haitao Qian, Jiyuan Cheng, Weiyuan Feng, Yufei Zhang (论文未提供具体所属机构信息) 💡 毒舌点评本文精准地瞄准了语音识别领域一个真实且被广泛忽视的痛点——口语化输出与下游正式文本需求之间的鸿沟，并提供了一个简洁有效的端到端解决方案。其最大亮点在于通过构建高质量的数据集（WenetSpeech-Formal与Speechio-Formal）和扎实的微调实验，有力地证明了在紧凑模型（0.6B和1.7B参数）中同时学习声学识别与语言风格转换的可行性。据作者称，这是首个将紧凑音频语言模型端到端微调用于中文口语转正式文本的工作。然而，其核心方法在技术上主要是对现有强大基座模型（Qwen3-ASR）的一次针对性的监督微调（SFT），而非架构层面的创新，这使得工作的原创深度稍显不足。虽然其发布的数据集和模型具有明确的实用价值，但作为一篇顶会论文，其在方法论上的突破性有限。 📌 核心摘要问题：当前主流的自动语音识别（ASR）系统（如Whisper, Qwen3-ASR）主要输出忠实于口语的逐字稿（verbatim transcription），包含填充词、重复、不规范句式等，不适合会议纪要、文档编辑等需要正式书面文本的下游应用。传统的两阶段方案（ASR+LLM改写）增加了延迟、内存成本和部署难度，且难以应用于设备端。方法核心：提出FormalASR，一个端到端框架，通过监督微调（SFT）将预训练的音频语言模型（Qwen3-ASR）直接适配于将语音转换为正式文本的任务。其关键在于构建了大规模的“口语-正式文本”配对数据集（WenetSpeech-Formal和Speechio-Formal），用于训练模型一次性完成识别与风格转换。创新之处：与两阶段流水线或大型多模态模型（如GPT-4o-audio）不同，FormalASR采用单个紧凑模型（0.6B和1.7B参数）完成任务，适合设备端部署。据称这是首个将紧凑音频语言模型端到端微调用于中文口语转正式文本的工作。实验结果：在构建的两个数据集上，FormalASR相比原始逐字稿基线取得了显著的性能提升。关键数据如下表所示。模型数据集 CER ↓ ROUGE-L ↑ BERTScore ↑ Qwen3-ASR-0.6B (基线) WenetSpeech-Formal (域内) 0.2581 0.8463 0.9198 FormalASR-0.6B (本文) WenetSpeech-Formal (域内) 0.1770 (-31.4%相对) 0.8769 0.9359 Qwen3-ASR-1.7B (基线) Speechio-Formal (跨域) 0.2393 0.8510 0.9108 FormalASR-1.7B (本文) Speechio-Formal (跨域) 0.1499 (-37.4%相对) 0.9029 0.9533 实际意义：为需要正式文本输出的语音交互场景（如文档编辑、会议记录）提供了一个低延迟、低内存、隐私安全的轻量级端侧解决方案。GGUF量化实验表明模型可以压缩到约1GB且性能损失可控，具备实际部署潜力。主要局限：该方法高度依赖由第三方LLM（DeepSeek-V3.2）生成的“正式文本”参考，其质量上限和风格定义可能受限。此外，论文缺少与“ASR+LLM”两阶段流水线这一标准做法的直接性能与延迟对比。 🔗 开源详情代码：https://github.com/TaurenMountain/FormalASR 模型权重： FormalASR-0.6B: https://huggingface.co/TaurenMountain/FormalASR-0.6B FormalASR-1.7B: https://huggingface.co/TaurenMountain/FormalASR-1.7B 数据集： WenetSpeech-Formal: https://huggingface.co/datasets/TaurenMountain/WenetSpeech-Formal Speechio-Formal: https://huggingface.co/datasets/TaurenMountain/Speechio-Formal Demo：论文中未提及复现材料：论文中提供了具体的训练配置，可作为复现材料。训练基于Qwen3-ASR官方检查点初始化，使用全参数监督微调(SFT)，在WenetSpeech-Formal训练集上训练2个epoch。训练环境为2张NVIDIA A800-SXM4-80GB GPU，采用BF16精度并启用梯度检查点。优化器为AdamW，使用余弦学习率调度，峰值学习率为2e-5，前5%的训练步骤进行线性预热。设备批大小为4，梯度累积2步，有效全局批大小为16。论文中引用的开源项目： Whisper: https://github.com/openai/whisper Qwen3-ASR: https://github.com/QwenLM/Qwen3-ASR SenseVoice: https://github.com/FunAudioLLM/SenseVoice DeepSeek-V3.2: https://github.com/deepseek-ai/DeepSeek-V3 llama.cpp: https://github.com/ggerganov/llama.cpp bitsandbytes: https://github.com/TimDettmers/bitsandbytes 🏗️ 方法概述和架构整体流程概述：FormalASR是一个端到端的单模型系统。给定输入音频波形，模型直接生成对应的正式书面文本序列，无需任何中间的逐字稿输出或后处理模块。其核心思想是将声学识别和语言风格转换耦合为一个统一的条件生成过程。 ...

FormalASR: End-to-End Spoken Chinese to Formal Text

📄 FormalASR: End-to-End Spoken Chinese to Formal Text #语音识别 #端到端 #语音大模型 #模型量化 #数据集 ✅ 6/10 | 前35% | #语音识别 | #端到端 | #语音大模型 #模型量化 | arxiv 学术质量 4.3/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Wanyi Ning、Yinshang Guo、Haitao Qian、Jiyuan Cheng、Weiyuan Feng、Yufei Zhang（所有作者机构均未在论文中说明） 💡 毒舌点评精准定义了“语音转写结果不符合书写规范”这一真实工业痛点，并通过构建大规模数据集和端到端微调给出了一个直接解决方案。然而，论文的核心贡献在学术创新性上略显薄弱：它本质上是利用一个强大的LLM（DeepSeek-V3.2）生成伪标签，然后对现有的音频-语言模型（Qwen3-ASR）进行监督微调。这一范式在NLP和Speech领域已属常规操作，其新意更多体现在问题形式化和数据集构建上，而非算法或理论突破。论文在论证其“端侧优势”时，缺少与“ASR+LLM”流水线在关键指标（如延迟、内存）上的直接对比，使得其核心主张的说服力打了折扣。 📌 核心摘要要解决什么问题：传统ASR系统输出包含口头禅、错误启动等不规范元素的逐字稿（verbatim transcript），不适合文档生成等下游任务。常用的两阶段ASR+LLM流水线方案部署复杂、延迟高，难以用于端侧设备。方法核心：提出FormalASR，一个端到端模型，直接将中文口语语音映射为正式书面文本。为此，构建了两个大规模数据集（WenetSpeech-Formal， Speechio-Formal），通过LLM（DeepSeek-V3.2）改写原始逐字稿并经过质量过滤生成“口语-正式文本”对。基于Qwen3-ASR模型（0.6B和1.7B）在上述数据集上进行全参数监督微调（SFT）。与已有方法相比新在哪里：首次尝试将紧凑的音频-语言模型端到端地微调用于中文的口语到正式文本转写，避免了推理时需要额外LLM的开销（如Table 1所示）。明确对比了传统ASR、ASR+LLM流水线和大型多模态模型（如GPT-4o），并构建了专用评测基准。主要实验结果：FormalASR在WenetSpeech-Formal和Speechio-Formal测试集上，相比逐字稿基线（Qwen3-ASR），字符错误率（CER）最高降低了37.4%，同时ROUGE-L和BERTScore得到提升。量化实验显示，GGUF 8-bit量化几乎无损，4-bit量化在大幅压缩模型尺寸时性能下降可控。主要结果如下表所示：模型数据集 CER ↓ ROUGE-L ↑ BERTScore ↑ Qwen3-ASR-0.6B WenetSpeech-Formal 0.2581 0.8463 0.9198 FormalASR-0.6B (Ours) WenetSpeech-Formal 0.1770 0.8769 0.9359 Qwen3-ASR-1.7B WenetSpeech-Formal 0.2460 0.8571 0.9268 FormalASR-1.7B (Ours) WenetSpeech-Formal 0.1606 0.8896 0.9439 Whisper large-v3 WenetSpeech-Formal 0.3631 0.7393 0.8538 Qwen3-ASR-0.6B Speechio-Formal 0.2252 0.8701 0.9343 FormalASR-0.6B (Ours) Speechio-Formal 0.1603 0.8948 0.9481 Qwen3-ASR-1.7B Speechio-Formal 0.2393 0.8510 0.9108 FormalASR-1.7B (Ours) Speechio-Formal 0.1499 0.9029 0.9533 图2说明：此图展示了FormalASR-1.7B与基线Qwen3-ASR-1.7B在推理效率上的对比。左图显示，在WenetSpeech-Formal上，FormalASR的平均输出token数从18.5减少到14.3（减少22.8%），在Speechio-Formal上从18.5减少到15.8（减少14.3%）。右图显示，解码延迟随逐字稿句子长度（token数）增加而显著降低，在40-49 token的长句区间，延迟降低约388毫秒。 5. 实际意义：为端侧设备（如手机、嵌入式设备）提供了一种轻量、低延迟的语音转正式文本解决方案，省去了云端依赖和第二模型。GGUF量化后的模型（如1.7B模型的Q4_K版本仅1.08GB）进一步增强了端侧部署可行性。 6. 主要局限性：1）方法本质上是利用LLM生成的数据对现有模型进行领域微调，创新性有限；2）“正式文本”的定义和监督信号完全依赖DeepSeek-V3.2的生成结果，存在偏见或误差传播风险，论文未对生成标签质量进行人工验证；3）实验未与最强的“ASR+LLM”流水线方案（如Qwen3-ASR接一个通用LLM）进行直接的延迟、内存和最终文本质量对比；4）主要评估指标CER、ROUGE-L衡量的是与LLM生成参考文本的匹配度，未评估生成文本本身的语法自然度、连贯性或用户偏好。 ...

Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers

📄 Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers #说话人验证 #模型量化 #鲁棒性 #高效推理 ✅ 6.5/10 | #说话人验证 #模型量化 | arxiv 👥 作者与机构第一作者：Ahmad Aloradi（FAU Erlangen-Nürnberg，数据科学系 & 国际音频实验室）通讯作者：未说明作者列表：Ahmad Aloradi（FAU Erlangen-Nürnberg，数据科学系 & 国际音频实验室）、Tim Roith（慕尼黑工业大学，计算、信息与技术学院 & 慕尼黑机器学习中心）、Emanuël A. P. Habets（FAU Erlangen-Nürnberg，国际音频实验室）、Daniel Tenbrinck（FAU Erlangen-Nürnberg，数据科学系） 💡 毒舌点评本文针对Bregman优化器中正则化参数λ对最终稀疏度极其敏感这一实际痛点，提出了一个简单有效的自适应调整策略，成功实现了在指定稀疏度下的稳定训练，且性能不错。然而，论文的理论贡献非常薄弱，仅提供了一个简单的收敛性引理，缺乏对自适应策略稳定性和震荡控制的深入分析，且实验验证主要局限在语音识别任务上，其方法在其他深度学习领域的普适性和影响力有待商榷。 📌 核心摘要要解决什么问题：在基于Bregman的稀疏优化框架（如LinBreg和AdaBreg）中，控制最终模型稀疏度的正则化参数λ对用户非常不友好，相同的稀疏度目标需要相差几个数量级的λ值，需要耗时的网格搜索来找到“神谕”参数。方法核心是什么：提出一种自适应正则化方案，在训练过程中根据当前模型稀疏度与目标稀疏度的差异（稀疏度缺陷ε）来动态调整λ。采用乘性更新规则，并在误差接近目标时通过调整更新频率和步长进行阻尼，以减少震荡。与已有方法相比新在哪里：这是首次将这种基于稀疏度反馈的自适应参数控制策略应用于基于Bregman散度的优化器（镜像下降/线性化Bregman迭代）。不同于固定的λ调度或双层优化，该方法更轻量、直观，并与Bregman迭代的框架自然结合。主要实验结果如何：在VoxCeleb和CNCeleb数据集上，使用ECAPA-TDNN和ResNet34模型，自适应方法能在75%到99%的稀疏度目标下，可靠地收敛到目标稀疏度。性能上，自适应方法在收敛速度和最终EER上等于或优于需要手动调参的非自适应“神谕”基线。例如，在VoxCeleb 1-O测试集上，ECAPA-TDNN使用AdaBreg在95%稀疏度下的EER为9.52%，而非自适应基线（λ=10）为9.70%。在OOD的CNCeleb-E上，稀疏模型（如ECAPA-TDNN， 95%稀疏度，EER 18.99%）优于密集模型（AdamW， EER 21.47%），展现了稀疏性带来的鲁棒性。实际意义是什么：消除了在Bregman稀疏优化中寻找特定λ的繁琐过程，使得用户能直接指定所需的稀疏度进行训练，降低了使用该类高效优化器的门槛，有利于推动稀疏模型在资源受限场景下的应用。主要局限性是什么：理论分析较弱，缺乏对自适应策略稳定性和震荡控制的严格保证。实验仅在两个语音数据集和两个模型架构上验证，方法在更广泛的任务和模型上的有效性未知。此外，发现并指出了Bregman优化器存在不理想的层间稀疏度分配问题（如分类器层过于稠密），导致在极端稀疏度下模型崩溃，这可能是该框架的内在缺陷。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中未提及数据集获取链接。论文使用了VoxCeleb [10] 和 CNCeleb [26] 数据集，但未提供直接的获取URL。 Demo：论文中未提及Demo。复现材料：论文中提及了详细的训练配置（如表2和表3所示），但未提供具体的检查点、代码包或复现指南链接。论文中引用的开源项目： WeSpeaker toolkit [43]：论文中引用了此工具包用于获取ECAPA-TDNN和ResNet34模型实现，但未提供其具体链接。 🏗️ 方法概述和架构整体流程概述：该方法嵌入到基于Bregman迭代的稀疏训练循环中。在每次迭代中，首先执行常规的梯度步和基于ElasticNet的近端算子步来更新模型参数θ；然后，计算当前稀疏度与目标稀疏度的差异（稀疏度缺陷ε）；最后，每隔f步，根据ε的大小和方向，通过一个乘性公式自适应地更新正则化参数λ，从而控制下一轮近端算子中软阈值的大小，间接控制参数的稀疏性。整个流程形成一个反馈控制回路。 ...