Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier

📄 Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier #音频分类 #生物声学 #多任务学习 #知识蒸馏 #自监督学习 #数据集 8.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前50% | #音频分类 | #多任务学习 | #生物声学 #知识蒸馏 | arxiv 👥 作者与机构 奥尔加·伊苏波娃(Olga Isupova),丹尼尔·库津(Danil Kuzin),埃拉·布朗宁(Ella Browning),汤姆·米尔斯(Tom Mills),史蒂文·里斯(Steven Reece)。 作者团队来自剑桥大学(University of Cambridge)。 💡 毒舌点评 这篇论文像一份精心包装的“集成学习套餐”,将多任务、自监督、知识蒸馏等流行技术打包成一个针对特定生态监测问题的解决方案。其优点在于目标明确、工程实现完整,并提供了新的数据集。然而,其主要短板在于方法论创新性不足——本质上是现有技术的组合,缺乏机器学习层面的理论或架构突破。实验对比过于单一,仅与一个通用模型比较,未能充分验证框架内各组件的贡献和必要性。绝对性能(F1=0.34)虽然对比基线有提升,但在实际野外多物种重叠场景下仍然很低,论文对此瓶颈分析不足。此外,关于“迁移能力”的声明(测试集来自未见站点)可能因训练数据来自同一地区(牛津郡)的少量站点而存在潜在偏倚,实际泛化能力有待在更广泛地理和生态条件下验证。 📌 核心摘要 针对被动声学监测(PAM)中直翅目昆虫自动分类面临的标注数据稀缺、领域偏移以及现有工具非通用等问题,本文提出了PULSE,一个半监督、多任务学习框架。该框架联合优化三个损失函数:1)基于弱标签数据的监督分类损失(多标签二元交叉熵);2)通过知识蒸馏与预训练的通用鸟声模型(BirdNET)嵌入对齐的生态先验损失(L2距离);3)利用大量无标签野外录音进行自监督学习(Bootstrap Your Own Latent, BYOL)以适应本地声景的损失。通过主动学习,从野外数据中获取少量标签,进一步提升了模型性能。实验表明,PULSE在仅使用“物种库”标签时,其宏F1分数(0.21)显著优于直接使用通用模型Perch 2.0(0.07);当加入少量野外标注数据后,其宏F1达到0.34,性能与使用同样数据微调的Perch 2.0(0.33)持平。论文还展示了学习到的嵌入空间编码了有意义的生态结构,并提供了交互式可视化工具用于生态发现。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 318 words

Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification

📄 Missing-Token Prompted Reliability-Aware Fusion for Robust Polyglot Speaker Identification #多模态模型 #说话人识别 #知识蒸馏 8.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #说话人识别 | #知识蒸馏 | #多模态模型 | arxiv 👥 作者与机构 Peng Jia, Li Dai, Jia Li, Zhenzhen Hu, Ye Zhao, Richang Hong Hefei University of Technology 💡 毒舌点评 这篇论文就像一份精心包装的竞赛技术报告。它准确地解决了POLY-SIM 2026挑战赛中定义明确的工程问题——在特定数据集上处理面部缺失的多语言说话人识别,并取得了优秀的竞赛成绩(第二名)。然而,从顶级学术会议的视角审视,其学术贡献显得相当单薄。所谓的“核心创新”——可学习的缺失token和可靠性感知融合——在更广泛的多模态学习文献中已非新鲜事,论文未能提供足够的理论深度来证明其在该任务上优于这些通用方法的原理。关键模块(如可靠性评分器)的设计和监督方式含糊不清,实验评估完全局限于单一竞赛数据集,且基线设置过于简单,使得“有效性”的证明力度大打折扣。论文更像是一份成功的工程优化总结,而非一篇提出具有广泛启发性的新原理或新技术的学术论文。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 304 words

Fast Speech Foundation Model Distillation Using Interleaved Stacking

📄 Fast Speech Foundation Model Distillation Using Interleaved Stacking #知识蒸馏 6.6/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 6.6/10 | 前50% | #知识蒸馏 | #知识蒸馏 | arxiv 👥 作者与机构 作者:Eungbeom Kim, Kyogu Lee 机构:Seoul National University 💡 毒舌点评 这篇论文像是一次精巧的“缝合”实验。核心思想——将复制的层插入原始层旁边——逻辑清晰,直觉上合理,也确实解决了现有堆叠方法在SF蒸馏上的一个痛点(层位置错乱)。但创新上限受限,更像是对既有堆叠策略的一种有效改进而非范式革新。实验做得很扎实,在标准benchmark上跑了不少对比,结论也算有说服力。最大的槽点在于,开源方面几乎为零,这让可复现性大打折扣,也削弱了实际影响力。对于追求“可复现、可检验”的顶会标准,这是一个显著的短板。 📌 核心摘要 本文研究如何加速语音基础模型的知识蒸馏训练。现有的堆叠(Stacking)训练加速方法(如渐进堆叠、MIDAS)虽然能减少训练成本,但会导致模型在下游任务上的性能下降,原因是这些方法会破坏模型层在训练阶段间的位置一致性,这对于编码了层特定知识的语音基础模型尤其不利。为此,作者提出了一种新的堆叠方法:交错堆叠(Interleaved Stacking)。该方法在每次扩展模型深度时,并非复制连续的K个层堆叠到顶部,而是从当前模型中选择每b个层(共K个)进行复制,并将每个复制的层紧接着其原始层插入。这一设计确保了层位置在训练过程中保持一致。此外,这种结构使得中间层知识蒸馏损失能够被自然地、稳定地集成。在SUPERB基准的多项任务(PR, ASR, SF, SID)上的实验表明,交错堆叠在两种调度策略下都显著优于渐进堆叠和MIDAS基线,并且在某些任务上甚至达到了与或优于不使用堆叠的完整训练模型的性能,同时实现了高达1.24倍的训练加速。 🔗 开源详情 代码:论文中未提供代码仓库或链接。 模型权重:论文中未提供预训练模型权重下载链接。 数据集: LibriSpeech(训练集):标准开源数据集,可通过 HuggingFace Datasets (https://huggingface.co/datasets/librispeech_asr) 等渠道获取。 SUPERB(评估基准):标准开源评估基准,项目主页为 https://github.com/s3prl/superb。 Demo:论文中未提及。 复现材料:论文详细描述了实验设置(优化器、学习率、批次大小、调度策略等),但未提供具体的配置文件、脚本或检查点。 论文中引用的开源项目(非本文贡献): HuBERT:作为教师模型,引用自 https://huggingface.co/facebook/hubert-base-ls960 和 https://github.com/facebookresearch/speechbrain。 DistilHuBERT:作为基线,相关代码见 https://github.com/facebookresearch/audiocraft 或其原始仓库。 FitHuBERT:作为基线,代码见 https://github.com/idiap/fit-hubert。 ARMHuBERT:作为基线,代码见 https://github.com/idiap/armhubert。 DPHuBERT:作为基线,代码见 https://github.com/speechbrain/speechbrain 中的相关实现。 🏗️ 方法概述和架构 本文提出的训练加速框架结合了知识蒸馏与交错堆叠的阶段性训练策略,旨在加速语音基础模型的蒸馏过程。核心架构由三部分组成:教师模型、学生模型以及训练框架。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 365 words

AuRA: Internalizing Audio Understanding into LLMs as LoRA

📄 AuRA: Internalizing Audio Understanding into LLMs as LoRA #语音问答 #参数高效微调 #知识蒸馏 #语音识别 #多模态模型 7.5/10 ✅ 7.5/10 | 前25% | #语音问答 | #参数高效微调 | #知识蒸馏 #语音识别 | arxiv 👥 作者与机构 作者:Bo Cheng, Lei Shi, Zhanyu Ma, Yuan Wu, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He 机构:Meituan, Jilin University 💡 毒舌点评 这篇论文精准地切中了当前语音-LLM集成的一个痛点:要么重(端到端训练),要么慢(级联推理),要么不够紧密(桥接方法)。AuRA提出的“内化”思路确实巧妙,像给LLM装了个隐藏的“语音耳朵”,推理时还能把这个“外挂”拆了,效率拉满。消融实验做得相当扎实,把各组件的作用都讲清楚了。不过,这位“耳朵”目前只能听懂“字面意思”(ASR),对于弦外之音(情感、语调)怕是无能为力,论文也老实承认了。实验范围有点保守,只在英语语音问答上打转,更广泛的语音理解任务(比如情感识别、对话)还没试水,这让“通用音频理解”的宣称稍微打了点折扣。总的来说,是一篇工程实现很扎实、想法很实用的扎实工作,但离“全面理解音频”还差那么一口气。 📌 核心摘要 AuRA 是一种轻量级的语音-LLM适配方法,其核心思想是将音频理解能力“内化”到大语言模型(LLM)的内部。该方法采用教师-学生蒸馏框架:训练时,一个冻结的ASR编码器(教师)与一个插入了LoRA适配器的冻结LLM(学生)并行处理相同的语音输入。通过设计的层间蒸馏损失,将教师模型的中间表示对齐到学生LLM的浅层隐藏状态中。推理时,移除庞大的ASR教师编码器,仅保留轻量的音频嵌入模块和LoRA适配的LLM,从而实现高效的端到端推理。在SDQA和HeySquad基准测试中,AuRA在准确率上超越了级联、适配和大规模端到端基线,同时显著降低了推理延迟和内存占用。 🔗 开源详情 代码:论文中未提供AuRA的官方代码仓库链接。 模型权重: AuRA 模型权重:论文中未提及。 使用的基础模型: Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 和 https://huggingface.co/Qwen/Qwen2.5-3B-Instruct。 Whisper-large-v3: https://huggingface.co/openai/whisper-large-v3。 数据集: HeySquad: https://huggingface.co/datasets/yijingwu/HeySQuAD_human。 SDQA: https://huggingface.co/datasets/WillHeld/SD-QA。 CommonVoice (用于适配训练的语音部分):论文提及使用英文子集,但未提供特定链接。该项目主站为 https://commonvoice.mozilla.org/。 VoRA-TextQA-Mixed (用于适配训练的文本部分):论文未提供链接,仅提及名称。 复现材料:论文附录 A 提供了详细的复现信息,包括训练数据(10K CommonVoice 和 10K VoRA-TextQA-Mixed)、音频预处理方法、LoRA 适配配置(前4层,秩256)、优化器设置(学习率 2e-4,批大小128,训练3个epoch)以及计算资源(8块 NVIDIA H20 GPU 训练约1.5小时)。 论文中引用的开源项目: Whisper: https://github.com/openai/whisper。 Qwen (包括 Qwen2, Qwen2.5, Qwen2.5-Omni): https://github.com/QwenLM/Qwen (具体模型权重见上方模型权重部分)。 BLSP: https://github.com/microsoft/BLSP。 DiVA: https://github.com/declare-lab/DiVA。 Qwen2-Audio: 模型权重链接见上文,论文未提供独立代码库链接。 Qwen2.5-Omni: 模型权重链接见上文,论文未提供独立代码库链接。 CommonVoice: https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 AuRA 的整体架构遵循教师-学生蒸馏范式(如图2所示),旨在将ASR教师的能力转移到LLM学生中,并在推理时移除教师。其核心流程包含三个关键组件:音频补丁嵌入、LoRA适配的LLM学生以及层间蒸馏机制。 ...

2026-06-10 · 更新于 2026-06-12 · 1 min · 184 words

Cross-Modal Knowledge Distillation without Paired Data: Theoretical Foundation and Algorithm

📄 Cross-Modal Knowledge Distillation without Paired Data: Theoretical Foundation and Algorithm #知识蒸馏 #鲁棒性 7.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #知识蒸馏 | #鲁棒性 | arxiv 👥 作者与机构 作者:Trong Khiem Tran (华盛顿州立大学, 河内科技大学), Anh Duc Chu (河内科技大学), Quang Hung Pham (河内科技大学), Phi Le Nguyen (河内科技大学), Trong Nghia Hoang (华盛顿州立大学)。 机构:华盛顿州立大学电气工程与计算机科学学院,河内科技大学信息与通信技术学院。 ...

2026-06-10 · 更新于 2026-06-12 · 5 min · 929 words

USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding

📄 USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding #音频编码 #知识蒸馏 #自监督学习 #迁移学习 #多任务学习 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9/10 | 前25% | #音频编码 | #知识蒸馏 | #自监督学习 #迁移学习 | arxiv 👥 作者与机构 作者:Heng-Jui Chang, Liu Bhati, Saurabhchand Athi, Mrudula Ratnarajah, Anton Chhetri, Amit Glass, James Glass 机构:MIT CSAIL, USA;Amazon, USA ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 399 words

Logit Distillation on Manifolds: Mapping by Learning

📄 Logit Distillation on Manifolds: Mapping by Learning #知识蒸馏 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #知识蒸馏 | #参数高效微调 | arxiv 👥 作者与机构 Yiru Yang (University of Zurich), Junling Wang (ETH Zurich), Nishant Kumar Singh (University of Zurich), Luohong Wu (University of Zurich), Haoran Yan (Deutsche Bank Securities) ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 509 words

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 核心贡献者来自KRAFTON。论文作者列表按角色划分,核心贡献者包括:建模(Ethan Ewer等)、数据(Beomsoo Kim等)、评估(Haechan Kim等)、服务与工程(Hyeonghwan Kim等)、基础设施(Jiyun Kim等)。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评 这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著,但论文在论证“最强整体表现”时,巧妙地选择了对自家有利的8个基线模型,并在多轮对话(FDB v2.0)上露出了短板。所谓“开源一切”的承诺,在正文中连代码仓库和模型权重的具体链接都找不到,实在不够诚恳。全双工模型设计了不少“状态建模”技巧,却没有任何消融实验来证明其有效性,这让贡献打了折扣。整体来看,它更像一份详尽的模型发布说明书,而非一篇经得起严格推敲的学术论文,顶会门槛确实还没到。 📌 核心摘要 本文介绍了Raon-Speech,一个针对英语和韩语优化的9B参数语音语言模型,以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练(对齐、端到端预训练+知识蒸馏、偏好优化后训练)将预训练LLM转化为兼具语音理解和生成能力的模型,并在42个基准测试中展示了其在语音相关任务上的优越性能,尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模(SIL, BOW, BC),以支持实时对话。该模型在FDB v1.0的转接行为上表现出色,但在更复杂的多轮对话场景(FDB v2.0)中并非最优。论文声称开源了模型、代码和演示,但未提供具体链接。 🔗 开源详情 代码:论文中未提及具体的代码仓库链接(如GitHub地址)。 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope页面)。 数据集: KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo:论文中未提及在线交互式演示的具体链接。 复现材料:论文未提供独立的复现材料包。论文详细说明了模型架构(附录B、C)、训练流程与超参数(表2、第3节)、数据处理流程(第4节、附录D),这些信息构成了复现所需的核心材料,但部分细节仍需参考附录。 论文中引用的开源项目: 骨干LLM: Qwen3-VL-8B-Instruct 语音编码器(理解对齐): AuT模型 语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器(全双工): Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型 偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM(Qwen3-VL-8B-Instruct)作为骨干,通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧:输入语音经由一个预训练的非因果语音编码器(AuT)提取特征(12.5Hz),再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧:使用Mimi编解码器(保留前16个残差码本)。生成过程是自回归的:上一帧的编解码器嵌入经输出适配器映射至LLM输入空间,LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家(SGE)用于预测语义token(第一层码本)。随后,一个15层的残差码本预测器(RCP,初始化自Qwen3-Omni-30B-A3B-Instruct)自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入,输入编解码器解码器合成语音,并反馈至输出适配器用于下一帧生成。说话人控制:通过一个预训练的说话人编码器(speechbrain/spkrec-ecapa-voxceleb)从目标语音中提取2-8秒的片段,其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

2026-05-30 · 更新于 2026-06-12 · 4 min · 730 words

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-12 · 3 min · 583 words

Data-Efficient On-Policy Distillation for Automatic Speech Recognition

📄 Data-Efficient On-Policy Distillation for Automatic Speech Recognition #语音识别 #知识蒸馏 #低资源 #模型压缩 📝 5.1/10 | 前50% | #语音识别 | #知识蒸馏 | #低资源 #模型压缩 | arxiv 学术质量 3.1/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Yu Lin, Yiming Wang, Runyuan Cai, Xiaodong Zeng 机构:AutoArk-AI 💡 毒舌点评 这篇论文像一个精心调校的“数据榨汁机”:用一个强大的教师模型(Qwen-ASR)和一套还算巧妙的蒸馏流水线(TD+OPD),硬生生地从100k小时的数据里榨出了能超越Qwen3-ASR-0.6B(声称用20M小时训练)的性能。这确实很酷,证明了在模型规模受限时,“名师出高徒”这条路走得通。但作者似乎对“榨汁机”本身的创新点有些语焉不详——核心的OPD方法基本是从文本领域搬过来的,而真正起效的“教师数据适应”(TD)阶段为何有效,只给了个VUSS指标当“黑盒诊断”,缺乏深入的机理分析。实验结果虽亮眼,但对比的公平性存疑(Qwen3-ASR-0.6B的训练配方未知),且缺乏多次实验的稳定性报告和更多鲁棒性测试。总的来说,这是一份扎实的“应用报告”和“有效性验证”,但在“机制揭秘”和“方法创新”上还有明显的提升空间。 📌 核心摘要 本文研究了如何在100k小时音频数据预算下,提升一个0.6B参数的ASR模型(Ark-ASR)的性能。核心方法是结合“教师数据适应”(TD)和“在策略蒸馏”(OPD)。TD阶段使用教师生成的2k小时伪标签数据对Ark-Base模型进行初步适应;随后,OPD阶段在原始100k小时数据上,利用冻结的Qwen-ASR教师模型对学生生成的转录序列提供密集反馈,通过匹配师生模型在联合Top-kk支持集上的分布来优化学生模型。主要结果是,Ark-Base+TD+OPD模型在五个中英文ASR基准测试中的四个上,超越了同规模(0.6B)的Qwen3-ASR-0.6B基线模型,且所用的监督音频数据量仅为后者声称的1/200。论文还提出“有效联合支持集大小”(VUSS)作为诊断工具,表明TD阶段提升了师生模型局部支持集的重叠度,使后续的OPD更有效。论文结论指出,SFT结合OPD是提升小型ASR模型数据效率的实用路径。 🔗 开源详情 代码:论文中未提及代码开源计划。 模型权重:论文中未提及。 数据集:论文使用了以下公开数据集,但未提供具体下载链接:AISHELL-1(开源中文语音语料库)、WenetSpeech(大规模多领域中文语料库,含Test_Net和Test_Meeting)、LibriSpeech(标准英文语音识别语料库,含test-clean和test-other)。 Demo:论文中未提及。 复现材料:论文未提供训练配置、检查点或完整复现信息。 引用的开源项目:论文引用了Whisper、Conformer、Deep Speech、Distil-Whisper等项目,但未提供其代码仓库链接。 补充链接(自动提取): 代码仓库:https://github.com/zai-org/GLM-ASR HuggingFace:https://huggingface.co/docs/transformers/model_doc/glmasr 🏗️ 方法概述和架构 Ark-ASR的架构是一个音频条件的因果语言模型,由音频分支和解码器两部分构成。音频分支的设计遵循GLM-ASR编码器:首先使用一个Whisper风格的音频编码器将语音特征(如Log-Mel滤波器组)转换为帧级声学隐状态;接着,通过层归一化和时间合并操作对这些状态进行规整;最后,一个多层感知机(MLP)适配器将声学状态投影到语言模型的隐藏维度。解码器部分是一个Qwen2因果语言模型。在推理和训练时,适配后的音频嵌入会替换ASR提示中占位符位置的嵌入,形成混合的音频-文本嵌入序列,该序列由因果解码器和语言模型头处理,自回归地生成转录令牌。 训练流程(Ark-ASR OPD)如下:对于一个音频批次,1) 学生生成:学生模型在自身音频条件下生成转录,不记录梯度。生成的令牌序列经过清理(去除ASR停止令牌和屏蔽的非ASR令牌范围)后解码为文本。2) 教师评分:冻结的Qwen-ASR教师模型在教师强制模式下,接收相同的音频和学生生成的文本前缀,输出转录位置上的令牌级逻辑值。3) 学生再评分与对齐:学生模型在相同的生成转录下再次前向传播(此次带梯度),使其逻辑值在学生实际访问的状态上与教师反馈对齐。损失函数是联合Top-kk KL损失(公式1): ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 234 words