Data-Efficient On-Policy Distillation for Automatic Speech Recognition

📄 Data-Efficient On-Policy Distillation for Automatic Speech Recognition #语音识别 #知识蒸馏 #低资源 #模型压缩 📝 5.1/10 | 前50% | #语音识别 | #知识蒸馏 | #低资源 #模型压缩 | arxiv 学术质量 3.1/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Yu Lin, Yiming Wang, Runyuan Cai, Xiaodong Zeng 机构:AutoArk-AI 💡 毒舌点评 这篇论文像一个精心调校的“数据榨汁机”:用一个强大的教师模型(Qwen-ASR)和一套还算巧妙的蒸馏流水线(TD+OPD),硬生生地从100k小时的数据里榨出了能超越Qwen3-ASR-0.6B(声称用20M小时训练)的性能。这确实很酷,证明了在模型规模受限时,“名师出高徒”这条路走得通。但作者似乎对“榨汁机”本身的创新点有些语焉不详——核心的OPD方法基本是从文本领域搬过来的,而真正起效的“教师数据适应”(TD)阶段为何有效,只给了个VUSS指标当“黑盒诊断”,缺乏深入的机理分析。实验结果虽亮眼,但对比的公平性存疑(Qwen3-ASR-0.6B的训练配方未知),且缺乏多次实验的稳定性报告和更多鲁棒性测试。总的来说,这是一份扎实的“应用报告”和“有效性验证”,但在“机制揭秘”和“方法创新”上还有明显的提升空间。 📌 核心摘要 本文研究了如何在100k小时音频数据预算下,提升一个0.6B参数的ASR模型(Ark-ASR)的性能。核心方法是结合“教师数据适应”(TD)和“在策略蒸馏”(OPD)。TD阶段使用教师生成的2k小时伪标签数据对Ark-Base模型进行初步适应;随后,OPD阶段在原始100k小时数据上,利用冻结的Qwen-ASR教师模型对学生生成的转录序列提供密集反馈,通过匹配师生模型在联合Top-kk支持集上的分布来优化学生模型。主要结果是,Ark-Base+TD+OPD模型在五个中英文ASR基准测试中的四个上,超越了同规模(0.6B)的Qwen3-ASR-0.6B基线模型,且所用的监督音频数据量仅为后者声称的1/200。论文还提出“有效联合支持集大小”(VUSS)作为诊断工具,表明TD阶段提升了师生模型局部支持集的重叠度,使后续的OPD更有效。论文结论指出,SFT结合OPD是提升小型ASR模型数据效率的实用路径。 🔗 开源详情 代码:论文中未提及代码开源计划。 模型权重:论文中未提及。 数据集:论文使用了以下公开数据集,但未提供具体下载链接:AISHELL-1(开源中文语音语料库)、WenetSpeech(大规模多领域中文语料库,含Test_Net和Test_Meeting)、LibriSpeech(标准英文语音识别语料库,含test-clean和test-other)。 Demo:论文中未提及。 复现材料:论文未提供训练配置、检查点或完整复现信息。 引用的开源项目:论文引用了Whisper、Conformer、Deep Speech、Distil-Whisper等项目,但未提供其代码仓库链接。 补充链接(自动提取): 代码仓库:https://github.com/zai-org/GLM-ASR HuggingFace:https://huggingface.co/docs/transformers/model_doc/glmasr 🏗️ 方法概述和架构 Ark-ASR的架构是一个音频条件的因果语言模型,由音频分支和解码器两部分构成。音频分支的设计遵循GLM-ASR编码器:首先使用一个Whisper风格的音频编码器将语音特征(如Log-Mel滤波器组)转换为帧级声学隐状态;接着,通过层归一化和时间合并操作对这些状态进行规整;最后,一个多层感知机(MLP)适配器将声学状态投影到语言模型的隐藏维度。解码器部分是一个Qwen2因果语言模型。在推理和训练时,适配后的音频嵌入会替换ASR提示中占位符位置的嵌入,形成混合的音频-文本嵌入序列,该序列由因果解码器和语言模型头处理,自回归地生成转录令牌。 训练流程(Ark-ASR OPD)如下:对于一个音频批次,1) 学生生成:学生模型在自身音频条件下生成转录,不记录梯度。生成的令牌序列经过清理(去除ASR停止令牌和屏蔽的非ASR令牌范围)后解码为文本。2) 教师评分:冻结的Qwen-ASR教师模型在教师强制模式下,接收相同的音频和学生生成的文本前缀,输出转录位置上的令牌级逻辑值。3) 学生再评分与对齐:学生模型在相同的生成转录下再次前向传播(此次带梯度),使其逻辑值在学生实际访问的状态上与教师反馈对齐。损失函数是联合Top-kk KL损失(公式1): ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 234 words

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

📄 HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding #语音合成 #语音识别 #自监督学习 #知识蒸馏 #多任务学习 #模型压缩 🔥 8.6/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #知识蒸馏 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu. 机构: 1. 上海交通大学 X-LANCE 实验室;2. 小红书 Hi-lab。 ...

2026-05-29 · 更新于 2026-06-12 · 4 min · 673 words

TARQ: Tail-Aware Reconstruction Quantization for Rare-Word Robust Automatic Speech Recognition

📄 TARQ: Tail-Aware Reconstruction Quantization for Rare-Word Robust Automatic Speech Recognition #鲁棒性 #模型压缩 🔥 10/10 | 前10% | #语音识别 | #模型压缩 | #鲁棒性 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Xinyu Wang, Ziyu Zhao, Ke Bai, Silin Meng, Dongming Shen, Xiao-Wen Chang, Yixuan He McGill University, Boson AI, Arizona State University 💡 毒舌点评 这篇工作堪称“精准手术”。它像一位经验丰富的外科医生,敏锐地指出了当前ASR量化手术中一个被忽视却致命的“并发症”——频率继承导致的罕见词“营养不良”。TARQ方案设计得相当优雅,用迹均衡化这把“微创手术刀”,在不增加额外标签和复杂度的前提下,重新分配了校准过程的“营养”,效果显著。实验设计全面得令人发指,八个骨干网络、六个数据集、六种校准语料的组合拳,几乎堵死了所有质疑的路径。唯一能稍微挑刺的是,这种“一刀切”的二分法在面对更精细的敏感度谱时可能显得粗糙,但作者也坦诚地指出了这一点。总体而言,这是一篇问题抓得准、方法想得巧、实验做得足的扎实工作,对ASR模型的实际部署有切实的推动作用。 📌 核心摘要 本文针对自动语音识别(ASR)模型在低比特权重(如W4)后训练量化(PTQ)中,罕见词(如人名、数字、专业术语)识别性能显著下降的问题,进行了深入的诊断分析并提出了一个解决方案。作者指出,标准PTQ方法(如GPTQ、AWQ)在校准时最小化的每token重建损失,隐式地按词频对位置加权,导致罕见词获得的优化质量严重不足,而这一问题在传统的整体词错误率(WER)指标中被掩盖。 为此,本文提出了TARQ,一个无标签、无验证解码、无额外训练的PTQ框架。其核心包含两个闭式组件: rareBAL:一种逐线性层的度量调整规则。它通过迹均衡化,将校准Hessian矩阵(\(H_\ell\))在常见词位置和尾部(罕见)词位置之间的质量重新分配为50/50,从而迫使量化过程同等关注两类词汇。 度量一致的残差校正:一个在顺序量化过程中考虑误差传播的校正步骤,确保在rareBAL定义的新度量目标下,求解过程保持一致性,避免因顺序量化导致的度量偏离。 在W4G128量化设置下,TARQ在八个ASR骨干网络(Whisper全系列、Qwen3-ASR、Voxtral)、六个标准数据集和多种校准语料上进行了评估。结果表明,TARQ能显著降低罕见词错误率(rare-WER),同时保持甚至略微改善整体WER。该方法还展现出卓越的跨语料库稳定性,并能有效迁移至实体丰富的基准测试(ProfASR, ContextASR-Speech-En),无需实体监督。 🔗 开源详情 代码:论文在附录J中声明“将发布TARQ源代码……在Apache-2.0许可证下”,包括校准管线、rareBAL Hessian重加权、闭式残差校正及评估脚本,并附有复现所有表格的README文件。但未提供具体的GitHub或其他代码仓库链接。 ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 555 words

Toward Native Multimodal Modeling: A Roadmap

📄 Toward Native Multimodal Modeling: A Roadmap #多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型 🔥 10/10 | 前25% | #多模态模型 | #模型压缩 | #高效推理 #强化学习 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构: [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学 ...

2026-05-26 · 更新于 2026-06-12 · 4 min · 803 words

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #模型压缩 🔥 9.4/10 | 前25% | #语音合成 | #生成对抗网络 | #模型压缩 | arxiv 学术质量 6.2/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 未提及具体作者姓名。论文页脚显示该工作部分由JSPS KAKENHI Grants (JP21H05054, JP23K21681, JP24K0296, JP25H01139) 和 JST NEXUS (JPMJNX25C1) 支持,表明研究可能在日本进行。 💡 毒舌点评 这篇论文的核心动机清晰:打破GAN和扩散模型在声码器领域的架构壁垒。其提出的统一ConvNeXt框架在理论上是优雅的,实验也展现了令人印象深刻的推理速度提升,尤其是在CPU上。然而,这种“统一”更像是一种架构复用,而非算法层面的深度融合。将GAN和扩散模型的训练策略强行嫁接到同一个生成器骨架上,虽然高效,但并未提出解决二者根本矛盾的新理论。例如,扩散模型的采样效率问题仅通过子模型和BDDM的噪声调度缓解,并未在生成器架构层面有实质性创新。此外,论文声称解决了“多说话人性能有限”的问题,但实验仅在单一英文数据集LibriTTS-R上进行,说服力有限。作者坦诚了模型尺寸随子模型数量线性增长的问题,但这在资源敏感的场景下是显著的缺点。总体而言,这是一篇扎实的工程优化论文,将现有技术(ConvNeXt、子模型训练、BDDM)巧妙组合,取得了显著的性能提升,但理论创新性稍显不足。 📌 核心摘要 本文提出了WaveNeXt 2,一个基于ConvNeXt架构的统一神经声码器框架,可兼容GAN和扩散模型两种范式。其核心创新在于引入了残差去噪和子模型结构,使每个子模型能在推理过程中逐步优化波形。实验在LibriTTS-R多说话人数据集上进行,结果表明:(1) GAN-WaveNeXt 2在保持与HiFi-GAN、WaveFit相当合成质量的同时,实现了显著更快的推理速度(相比WaveFit,GPU RTF降低70%,CPU降低90%)。(2) Diff-WaveNeXt 2在采用子模型训练后,相比4步FastDiff,具有竞争力的质量和更快的推理速度(CPU RTF降低80%),且训练时间极短(仅32小时),适合资源受限的应用。 🔗 开源详情 代码:论文自身未提供代码仓库链接。但引用了以下第三方开源实现: ParallelWaveGAN (用于实现HiFi-GAN V1): https://github.com/kan-bayashi/ParallelWaveGAN wavefit-pytorch (WaveFit实现): https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff: https://github.com/Rongjiehuang/FastDiff Vocos (ConvNeXt生成器基础): https://github.com/gemelo-ai/vocos 模型权重:未提及任何模型权重的下载链接。 数据集:使用LibriTTS-R数据集。论文未直接提供链接,但该数据集可通过Hugging Face等平台获取,例如:https://huggingface.co/datasets/hf-internal-testing/libritts_r。论文使用的子集为train-clean-100、train-clean-360(训练)和test-clean-100(评估)。 Demo:提供了项目主页和语音样本演示页面:https://37integer.github.io/WAVENEXT-2。 复现材料:未提及具体的训练配置文件、模型检查点或详细的附录文档链接。 🏗️ 方法概述和架构 WaveNeXt 2框架的核心是一个可复用的WaveNeXt-based生成器,其设计目标是通过统一的残差去噪和子模型结构,适配GAN与扩散两种训练范式。 ...

2026-05-26 · 更新于 2026-06-12 · 3 min · 552 words

Perforated Neural Networks for Keyword Spotting

📄 Perforated Neural Networks for Keyword Spotting #关键词检测 #神经网络架构 #模型压缩 #边缘计算 📝 5/10 | 前60% | #关键词检测 | #神经网络架构 | #模型压缩 #边缘计算 | arxiv 学术质量 4/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Vishy Gopal(Purdue University) 通讯作者:未说明 作者列表:Vishy Gopal(Purdue University),Aris Ilias Goutis(Renesas Electronics),Ralph Crewe(Perforated AI),Erin Yanacek(Perforated AI),Rorry Brenner(Perforated AI) 💡 毒舌点评 亮点:将一种生物启发的训练框架(PB)应用于一个边界清晰、指标明确的边缘实用任务(KWS),并通过大规模超参数搜索在“精度-参数量”的帕累托图上展示了极具视觉说服力的优势。论文的工程价值和潜在应用吸引力显而易见。短板:这是一篇典型的“黑客松获奖报告”式论文,而非严谨的学术研究。其最核心的缺陷是实验对比的严重不足和科学严谨性的缺失:仅与一个陈旧的平台默认基线进行比较,完全回避与当前领域SOTA(如MobileNet、EfficientNet-Lite、高效剪枝/量化模型)的直接对决;核心声称(“普遍优势”)仅凭一次搜索的散点图支撑,没有任何统计显著性分析或消融实验来验证性能提升的确切来源。因此,其学术贡献大打折扣。 📌 核心摘要 要解决的问题:在边缘设备(如MCU、SoC)上部署关键词检测(KWS)模型时,面临着低内存、低算力和高精度不可兼得的矛盾。传统的模型压缩技术(如剪枝、量化)通常以牺牲精度来换取模型尺寸的减小。 方法核心:将穿孔反向传播(Perforated Backpropagation, PB)框架应用于Edge Impulse平台的KWS流程。PB在网络标准训练收敛后,为神经元添加“树突节点”。这些节点通过修改的级联相关规则(Equations 3 & 4)学习,其权重更新不通过主网络的反向传播梯度(Equation 2中对应项置零),从而在计算图中独立于主网络。 与已有方法相比新在哪里:PB被定位为一个“即插即用”的插件,而非全新的网络架构。它区别于传统压缩技术(如剪枝、量化),声称可以同时提高精度或减少参数。此前PB已在化学、金融、NLP、图像识别等领域有过验证,但本文是其首次在音频/边缘推理领域的系统性应用。 主要实验结果:在Edge Impulse KWS任务上进行了800次超参数搜索。结果显示,穿孔模型在帕累托前沿上全面超越传统模型。关键数据(来自Table 1):最优树突模型(最小超过基线精度)参数量1,556,测试精度0.933(错误率0.067);基线模型参数量3,859,测试精度0.921(错误率0.079)。与基线相比,最优模型在错误率降低16%的同时,参数量减少了60%。 实际意义:为边缘AI工程师提供了一种新的模型增强工具,通过增加少量计算复杂度(添加和训练树突节点)来换取在严格约束下的性能提升。 主要局限性:实验对比基线薄弱(仅为Edge Impulse平台默认模型),缺乏与当前轻量级SOTA模型(如MobileNet系列、EfficientNet-Lite、高效剪枝/量化模型)的对比;缺乏消融实验以验证树突节点机制本身相对于简单增加参数的有效性;实验结论基于一次超参搜索结果,缺乏统计显著性检验(如多次运行的均值、方差);论文未提供数据集规模、具体损失函数、优化器、完整超参数配置及训练硬件等关键实现细节,严重妨碍可复现性。 🔗 开源详情 代码:https://github.com/perforated-ai/dendritic-impulse-block 模型权重:论文中未提供独立的模型权重下载链接。最佳模型的参数量和测试精度在文中给出(1,556参数,0.933准确率)。相关权重文件应包含在上述代码仓库中。 数据集:论文中未提供具体的数据集名称或独立的下载链接。实验使用了Edge Impulse平台标准关键词识别教程流水线中的数据。数据集原始来源及许可信息需参考Edge Impulse平台(未在论文中给出具体链接)。 Demo:论文中未提及。 复现材料:论文中未提供详细的训练配置文件或复现文档。但提供了Weights & Biases的超参扫描报告链接:https://wandb.ai/vishy-gopal/dendritic-kws/reports/KWS-sweep-report–Vmlldzo4OTcwMzU,其中包含了所有800次试验的详细配置和结果。 论文中引用的开源项目: Perforated AI GitHub 仓库:提供论文中所有模型代码。链接:https://github.com/perforated-ai/dendritic-impulse-block Edge Impulse:关键词识别实验的平台,但论文中未给出其具体项目链接。 Weights & Biases:用于进行大规模超参数扫描的工具。链接:https://wandb.ai/vishy-gopal/dendritic-kws/reports/KWS-sweep-report–Vmlldzo4OTcwMzU 🏗️ 方法概述和架构 整体流程概述:本文提出的方法是一个分阶段的训练框架,旨在将“树突计算”模块嵌入到现有的神经网络中。其核心流程为:首先,使用标准反向传播将一个基础的卷积神经网络(由Edge Impulse平台提供)训练至收敛;然后,交替进行“神经元阶段”和“树突阶段”的迭代优化,逐步添加并冻结“树突节点”,最终得到一个包含树突节点的增强模型用于部署。 ...

2026-05-18 · 更新于 2026-06-12 · 2 min · 379 words

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

📄 OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models #音视频 #模型压缩 #推理加速 #跨模态对齐 ✅ 7.0/10 | 前25% | #音视频 | #模型压缩 | #推理加速 #跨模态对齐 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室) 通讯作者:Yuxing Han(清华大学深圳国际研究生院) 作者列表:Yuchen Deng(清华大学深圳国际研究生院 / 鹏城实验室)、Zidang Cai(未说明具体机构)、Hai-Tao Zheng(清华大学深圳国际研究生院)、Jie Wang(清华大学深圳国际研究生院)、Feidiao Yang(鹏城实验室)、Yuxing Han(清华大学深圳国际研究生院) 💡 毒舌点评 本文提出了一个针对Omni-LLM推理加速的训练免费两阶段压缩框架,核心贡献在于认识到原生固定分块可能破坏跨模态对应关系,并据此设计了CPCR模块。方法设计思路清晰,实验结果也显示了在特定设置下优于SOTA(OmniZip)的效率-性能权衡。然而,框架的成功高度依赖一系列手动调节的超参数(如阈值τ,系数β,正则项λ_c),且这些参数的敏感性分析缺失,使得“训练免费”和“即插即用”的宣称大打折扣。此外,论文未开源代码,且在部分表格数据(如β值)上存在不一致,降低了其可信度和可复现性。方法虽然加速了预填充阶段,但端到端延迟提升有限,实际部署收益需打折扣。 📌 核心摘要 要解决什么问题:现有Omnimodal LLMs (Omni-LLMs) 因长视频流和密集音频序列导致推理成本高昂。现有token压缩方法通常使用固定或原生的压缩单元(chunks),容易破坏跨模态的对应关系和互补信息,从而在提升效率时难以稳定保持性能。 方法核心是什么:提出了OmniRefine,一个训练免费的两阶段音视频token压缩框架。第一阶段(CPCR)利用帧-音频相似度和动态规划,将原生的时间分块边界细化为跨模态对齐的压缩单元。第二阶段(MACC)在每个细化单元内进行模态感知的协作压缩:视频分支通过树结构策略压缩空间和时间冗余,音频分支在语义锚点约束下压缩连续声学内容,且音频的压缩预算会自适应地参考视频的保留率。 与已有方法相比新在哪里:关键创新在于显式地优化了压缩单元的边界(通过CPCR)以保持跨模态对齐,并在此基础上设计了模态特异且预算协作的压缩策略(通过MACC)。不同于直接对单模态进行压缩或使用固定分块的方法,OmniRefine首先改善了数据组织的单元,为后续压缩提供了更优的基础。 主要实验结果如何:在Qwen2.5-Omni-7B上,OmniRefine在WorldSense基准测试中,以44%的token保留率(31% FLOPs)达到了46.7%的准确率,几乎匹配了使用完整token的基线(46.8%)。在更激进的30%保留率下,仍能达到46.4%,优于OmniZip在更高保留率下的表现(45.3%-45.9%)。在AVUT和VideoMME上也展示了具有竞争力的性能-效率权衡。消融实验证明了CPCR和MACC模块的互补贡献。 实际意义是什么:该方法为高效部署Omni-LLMs提供了实用的解决方案。它是训练免费的,且兼容KV缓存重用,能降低多轮推理的预填充开销,对于在资源受限设备上实现实时音视频理解有潜在价值。 主要局限性是什么:论文承认的局限是方法依赖一系列手动设置的超参数。审稿人认为,更根本的限制在于:1)缺乏超参数敏感性分析,其泛化能力和“即插即用”特性存疑;2)端到端加速收益有限;3)部分实验数据(如β值)在正文与附录中不一致,需澄清。 🔗 开源详情 代码:论文中未给出具体代码仓库链接。摘要中提及“The code and interface will be released to facilitate further research.”,表明未来会发布代码,但当前版本未提供URL。 模型权重:论文中未提及。论文指出其方法基于 Qwen2.5-Omni 架构实现,但未提供 OmniRefine 本身压缩后的模型权重下载链接。 数据集:论文中提及并使用了以下公开基准测试数据集,但未在正文中提供直接获取链接。具体名称为: WorldSense [18] VideoMME [13] AVUT [57] Demo:论文中未提及。 复现材料:论文附录提供了详细的超参数设置表(表5)、算法伪代码(算法1)以及评估协议描述,这些信息有助于复现。但未提供完整的训练配置(本方法无需训练)等。 论文中引用的开源项目: Qwen2.5-Omni:作为基础模型使用。论文引用了模型名,但未给出链接。 FastV:作为基线方法进行比较。论文引用了方法名,但未给出链接。 LMMs-Eval:在VideoMME评估中使用的框架。论文引用了框架名,但未给出链接。 🏗️ 方法概述和架构 OmniRefine是一个面向Omnimodal LLMs推理加速的、训练免费的两阶段音视频token压缩框架。其核心流程是:输入原始编码后的音视频token序列 → 经过第一阶段(CPCR)进行跨模态对齐的分块优化 → 在第二阶段(MACC)于每个优化后的分块内进行模态感知的协作压缩 → 输出压缩后的token序列,用于LLM的预填充阶段。 ...

2026-05-13 · 更新于 2026-06-12 · 4 min · 688 words

Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression

📄 Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression #音视频事件检测 #知识蒸馏 #多模态模型 #音频分类 #模型压缩 🔥 8.5/10 | 前25% | #音视频事件检测 | #知识蒸馏 | #多模态模型 #音频分类 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Hyoungseob Park (Yale University, Amazon AGI 实习期间完成) 通讯作者:未明确说明(论文未标注通讯作者信息) 作者列表: Hyoungseob Park (Yale University) Lipeng Ke (Amazon AGI) Pritish Mohapatra (Amazon AGI) Huajun Ying (Amazon AGI) Sankar Venkataraman (Amazon AGI) Alex Wong (Yale University) 💡 毒舌点评 亮点:将蒸馏对象从“特征本身”或“输出概率”巧妙地转换为“特征间的成对关系矩阵”(核化令牌),从而绕开了师生模型维度必须匹配的硬约束,这个思路非常实用且有效。短板:尽管实验全面,但核心方法(计算Gram矩阵 + 熵加权)更像是经典技术(核方法、信息熵)在现代Transformer蒸馏场景下的工程化应用组合,理论创新深度有限,更像是一个优秀、扎实的“系统解决方案”。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 393 words

Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification

📄 Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification #说话人验证 #知识蒸馏 #自监督学习 #模型压缩 #语音表示学习 🔥 8.0/10 | 前25% | #说话人验证 | #知识蒸馏 | #自监督学习 #模型压缩 学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Jungwoo Heo (University of Seoul, Republic of Korea) 通讯作者:Ha-Jin Yu (University of Seoul, Republic of Korea) 作者列表:Jungwoo Heo (University of Seoul, Republic of Korea)、Hyun-seo Shin (University of Seoul, Republic of Korea)、Chan-yeong Lim (University of Seoul, Republic of Korea)、Kyowon Koo (University of Seoul, Republic of Korea)、Seung-bin Kim (University of Seoul, Republic of Korea)、Jisoo Son (University of Seoul, Republic of Korea)、Kyung Wha Kim (Supreme Prosecutors’ Office Republic of Korea)、Ha-Jin Yu (University of Seoul, Republic of Korea) 💡 毒舌点评 这篇论文精准地切中了当前自监督语音模型“大而不能用”的痛点,其提出的任务引导学习(TGL)和代理对齐蒸馏(PAD)组合拳,确实为异构架构间的知识传递提供了系统化的解决方案,在VoxCeleb和VoxSRC等标准基准上取得了令人印象深刻的性能提升。然而,实验部分主要围绕其自身方法的变体展开,与当前最前沿的、同样专注于轻量化或高效说话人验证的最新方法(如2025年的SEED, LAP等)的横向对比深度稍显不足,使得其“最佳”地位的论证链条不够完整。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 376 words

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation Guided Structured Pruning

📄 Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation Guided Structured Pruning #说话人验证 #预训练 #知识蒸馏 #模型压缩 #语音大模型 ✅ 7.5/10 | 前25% | #说话人验证 | #知识蒸馏 | #预训练 #模型压缩 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ze Li(武汉大学计算机科学学院, 苏州多模态智能系统市重点实验室) 通讯作者:Ming Li(武汉大学人工智能学院, 昆山杜克大学, 苏州多模态智能系统市重点实验室) 作者列表:Ze Li(武汉大学计算机科学学院, 苏州多模态智能系统市重点实验室)、Ming Cheng(武汉大学计算机科学学院, 苏州多模态智能系统市重点实验室)、Ming Li(武汉大学人工智能学院, 昆山杜克大学, 苏州多模态智能系统市重点实验室) 💡 毒舌点评 这篇论文是一次漂亮的大模型“落地”工程实践,成功地将w2v-BERT 2.0这个语言学预训练巨兽改造为说话人验证的利器,并达到了SOTA性能,同时不忘通过剪枝为实际部署铺路,展现了完整的研究闭环。然而,其核心创新更偏向于“技术选型与系统集成”的优秀范例,而非底层算法的突破,更像是用现有最好的工具(MFA, LoRA, 结构化剪枝)精心组装了一台高性能机器,虽然结果亮眼,但缺少让同行惊呼“原来可以这样”的独创性构思。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/ZXHY-82/w2v-BERT-2.0_SV。 模型权重:论文中未明确提及是否公开预训练或微调后的模型权重。 数据集:实验所用数据集(VoxCeleb, VoxBlink2, CN-Celeb, MUSAN, RIR Noise)均为公开数据集,但论文未提供数据集的获取指南或处理脚本。 Demo:未提及在线演示。 复现材料:论文给出了详细的模型架构描述(包括各模块维度)、三阶段训练策略(含学习率、优化器、调度器、损失函数参数)、剪枝细节(损失函数、L0建模参数)等,为复现提供了核心框架。部分训练超参数(如batch size)和硬件信息缺失。 引用的开源项目:论文中引用的开源项目包括ECAPA-TDNN、MFA-Conformer、LoRA等,表明其实验���于这些公开的架构和代码思想。 📌 核心摘要 问题:现有说话人验证(SV)系统面临标注数据不足与模型复杂度之间的矛盾,且大规模预训练模型(PTM)的参数量过大,不利于实际部署。 核心方法:首次将基于Conformer架构、在4.5百万小时多语言数据上自监督训练的w2v-BERT 2.0 PTM用于SV任务。采用多尺度特征聚合(MFA)结构结合Layer Adapter处理PTM多层输出,并使用LoRA进行高效微调。为降低部署成本,应用知识蒸馏指导的结构化剪枝技术压缩PTM。 创新点:将w2v-BERT 2.0引入SV;提出“MFA + Layer Adapter + LoRA”的高效适配框架;实现了基于知识蒸馏的结构化剪枝,大幅压缩模型且性能损失极小。 主要结果:在Vox1-O测试集上达到0.12% EER,在Vox1-H上达到0.55% EER,超越了表1中列出的多种前沿方法。通过剪枝将模型参数减少约80%,在Vox1-O上的EER仅从0.14%增加至0.18%,性能退化仅0.04%。 实际意义:为使用超大型预训练模型解决SV问题提供了有效方案,并展示了如何将模型压缩至实际可用的规模,平衡了性能与效率。 局限性:尽管性能优越,但模型初始参数量巨大(约580M),剪枝后的模型(124M)依然较传统SV模型庞大。研究未深入探讨w2v-BERT 2.0中Conformer架构相比Transformer在SV任务上的具体优势机制,且未提供在其他更具挑战性场景(如极端噪声、跨语言)下的全面评估。 🏗️ 模型架构 论文的整体架构旨在将大规模预训练模型w2v-BERT 2.0适配到说话人验证任务,其核心流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 443 words