语音识别，

📄 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages #语音识别， #预训练， #低资源， #模型评估 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：V.S.D.S. Mahesh Akavarapu (University of Tübingen, 计算语言学系) 通讯作者：Gerhard Jäger (University of Tübingen, 计算语言学系) (根据邮箱和机构推断) 其他作者：Michael Daniel (University of Jena, 语言学系) 💡 毒舌点评亮点：在“几乎没数据”的极限条件下，用巧妙的初始化技巧（平均复合音素权重）让一个通用模型（wav2vec2）学会了识别拥有80多个辅音的“语言界刺猬”Archi，并且把识别错误归因于“见得少”而不是“长得怪”，这个洞察很有价值。槽点：总共就1小时左右的训练数据，得出的“S型学习曲线”结论虽然有趣，但总感觉像是在用显微镜观察一滴水里的生态，结论能不能推广到其他语言和更大规模的数据上，还得打个大大的问号。 🔗 开源详情代码：完全开源。GitHub地址：https://github.com/mahesh-ak/north_caucasian_asr 数据集：完全开源。HuggingFace地址：https://huggingface.co/datasets/mahesh27/archi_rutul_asr 模型权重：论文中未明确提及是否公开微调后的模型权重，但代码仓库可能包含相关脚本和配置。在线Demo：未提及。依赖的开源工具/模型：wav2vec2-large-ipa (Taguchi et al., 2023), Whisper-large-v3, Qwen2-Audio, Qwen2.5-Omni, KenLM。 📌 核心摘要这篇论文针对两种音系极其复杂、资源极度匮乏的濒危东高加索语言（Archi和Rutul），首次建立了语音识别（ASR）基准。作者们整合并标准化了现有的语言学记录，创建了约50分钟和1小时20分钟的语音-文本数据集。他们评估了多种前沿ASR模型（wav2vec2, Whisper, Qwen2-Audio等），并为wav2vec2引入了一种语言特定的音素词汇表及启发式输出层初始化方法（平均复合音素参数），在该低资源场景下取得了与Whisper相当或更优的性能。超越传统的词/字错误率，论文进行了细致的音素级错误分析，发现音素识别准确率（F1）与训练频率的对数之间存在稳健的S型（sigmoid）关系。这一核心发现表明，许多通常归因于音系复杂性的识别错误，实际上主要由训练数据稀缺导致。研究证明了音素级评估对于理解低资源、类型复杂语言ASR行为的价值。 🏗️ 模型架构论文主要评估和改进了以下模型架构，其核心输入输出流程为：原始音频波形 → 音频编码器（特征提取）→ 预测层（音素/子词概率）→ 解码（CTC或生成式）→ 文本转录（IPA或西里尔字母）。 ...

📄 NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR #语音识别， #语音大模型， #强化学习， #流式处理 🔥 评分：8.5/10 | arxiv 👥 作者与机构作者：Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu 所属机构：Advanced Intelligent Systems Group, NIO (蔚来汽车) 备注：论文未明确区分第一作者和通讯作者。所有作者均来自同一工业界团队（NIO）。 💡 毒舌点评亮点：这是一篇典型的“工程美学”论文，把一个前沿技术（LLM-based ASR）在落地前可能遇到的坑（轻量化、幻觉、热词）都系统性地填上了，而且填得很扎实、很漂亮。特别是多阶段训练和流式推理的设计，体现了对LLM和语音特性深刻的理解。槽点：理论创新的“性感”程度略逊于其工程实现的“性感”。它更像是一个优化到极致的“解决方案”而非一个颠覆性的“新方法”。另外，开源信息的缺失对于这样一个以实用为导向的工作来说，是个不小的遗憾。 🔗 开源详情论文中未明确提及代码、模型权重或训练数据的开源计划。文末提供的GitHub链接（https://github.com/.../NIM4-ASR）上下文是“Report GitHub Issue”，且论文全文未提及任何关于开源发布的细节。因此，目前��法确认该项目已开源。 📌 核心摘要本文提出了NIM4-ASR，一个面向生产环境的高效、鲁棒且可定制的实时语音识别框架。该工作旨在解决现有LLM-based ASR在实际部署中的三大挑战：1) 轻量化模型性能严重下降（有限的向下扩展性）；2) 在声学挑战条件下产生幻觉；3) 缺乏生产就绪的热词定制机制。为此，作者提出了一套原则性的多阶段训练范式，通过模块感知的预训练、迭代异步监督微调（IA-SFT）和ASR专用强化学习（RL），显式地划分编码器与LLM的功能边界，减少模态差距并抑制表示漂移。在推理端，设计了优化的流式推理管道和基于音素检索增强生成（RAG）的百万级热词定制方案。实验表明，仅2.3B参数的NIM4-ASR在多个公开基准上达到SOTA水平，并在内部实体密集型场景中大幅超越更大规模的模型，同时支持亚毫秒级检索延迟的热词定制。该工作为构建适用于实时语音交互的LLM-based ASR系统提供了实用的解决方案。 🏗️ 模型架构 NIM4-ASR采用模块化的编码器-适配器-LLM架构，整体流程如下： ...