论文速递 | 语音/音乐/音频论文速递

语音/音乐/音频论文速递 2026-07-08

语音/音乐/音频论文速递 2026-07-08 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音属性识别 3篇 ███ #音频分类 3篇 ███ #语音合成 3篇 ███ #语音识别 3篇 ███ #声源定位 2篇 ██ #音乐生成 2篇 ██ #语音交互 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（26 篇，按分数降序）排名论文总分分档主任务 🥇 Hierarchical Acoustic-Semantic Modeling: Modality Separ 9.2分前10% #语音交互 🥈 Propose and Attend: Training-free MLLM Grounding Confid 8.2分前25% #音频事件检测 🥉 Music I Care About: Automated Multimodal Benchmarking o 7.8分前25% #音乐理解 4. Escaping the Procrustean Bed: Groupwise Orthogonal Conn 7.8分前25% #语音属性识别 5. TriA Pipeline: A Large-Scale Automatic Audio Annotation 7.4分前50% #音频分类 6. InsideSSL: Understanding Self-Supervised Speech Represe 7.4分前50% #语音属性识别 7. Precise Video-to-Audio Generation with Cross-Modal Alig 7.4分前50% #音视频生成 8. WordVoice: Explicit and Decoupled Multi-Dimensional Wor 7.2分前50% #语音合成 9. ForestIR: Physics-Informed Forest Sound Simulation for 7.2分前50% #声源定位 10. Uncovering Latent Depression Severity for Binary Depres 7.0分前50% #音视频理解 11. Determinantal point process sampling for bioacoustic ac 6.9分前50% #音频分类 12. From Sinhala to Dhivehi: Cross-Lingual Transfer Learnin 6.6分前50% #语音识别 13. Goodbye Equal Error Rate, Hello Local Information Discl 6.5分前50% #语音转换 14. BlueMagpie-TTS: A Token-Efficient Tokenizer, Language M 6.5分前50% #语音合成 15. Fréchet Distance Loss on Speech Representations for Tex 6.5分前50% #语音合成 16. NAVER LABS System Re-implementation for the IWSLT 2026 6.4分前50% #语音翻译 17. Few-Shot Class-Incremental Audio Classification Using P 6.3分前50% #音频分类 18. Gemma 4 Technical Report 6.2分前50% #语音识别 19. Revisiting the Relation Between Language Model Perplexi 6.0分前50% #语音识别 20. Multimodal Video-to-Music Recommendation via Semantic R 5.4分后50% #音乐检索 21. Designing Maintainable Hybrid Generative Systems: A Qua 5.3分后50% #音乐生成 22. Learning-based Physics-Constrained Neural Kernel for So 5.2分后50% #声源定位 23. Distributed Multichannel Wiener Filtering for Topology- 5.1分后50% #语音增强 24. Flow Matching-Based Speech Source Separation with Best- 4.9分后50% #语音分离 25. Umm… With Transformers? Insights from Filled Pause Us 4.8分后50% #语音属性识别 26. From Textural Counterpoint to Feature Encoding: A Multi 2.1分后50% #音乐生成 📋 论文列表 🥇 Hierarchical Acoustic-Semantic Modeling: Modality Separation and Semantic Coherence for Full-Duplex SLMs 9.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Adaptive Diversity-Uncertainty Active Learning with Redundancy Control for Bioacoustic Event Classification

📄 Adaptive Diversity-Uncertainty Active Learning with Redundancy Control for Bioacoustic Event Classification #音频事件检测 #低资源 6.2/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 ✅ 6.2/10 | 前50% | #音频事件检测 | #低资源 | arxiv 👥 作者与机构第一作者：Gabriel Dubus（未说明）通讯作者：未说明作者列表：Gabriel Dubus（未说明）、Hugo Magaldi（未说明）、Anatole Gros-Martial（未说明） 💡 毒舌点评论文为多标签生物声学事件分类定制了一套自适应不确定性-多样性主动学习策略，并加上MMR去冗余，在鸟类数据集上确实跑赢了CoreSet和Margin，工程思路清晰。但海洋场景近乎翻车、基线缺少信息论方法、连BALD的影子都没见着，而TypiClust又被漏掉了。代码和数据全无，让这份“挑战赛报告”的复现与推广价值打了不小的折扣。 📌 核心摘要要解决的问题：在生物声学事件多标签分类中，标注代价高昂且声学环境异质性强，需设计能动态平衡探索与利用、并控制批次冗余的主动学习采样策略。方法核心：提出ADU-MMR，通过全局模型置信度驱动的自适应权重将预测不确定性与嵌入空间多样性结合，并用贪婪最大边际相关性（MMR）控制批次内样本冗余。与已有方法的区别：自适应权重根据未标注池的全局归一化熵非线性动态调整，早期偏重多样性探索，后期转向不确定性利用；同时显式引入MMR减少批次冗余，区别于固定权重或纯不确定/多样性方法。主要实验结果：在BirdSet（HSN、POW、UHH）和ATBFL上，平均AULC 0.505、mAP 0.590，优于CoreSet、Margin、TypiClust和Random。HSN上AULC领先CoreSet 7.6个百分点，ATBFL上所有方法差距微小且Random略优。实际意义：为生态监测中的多标签声学事件标注提供了更高效的主动学习策略，尤其适用于结构化声景，可直接嵌入BaseAL等主动学习框架。主要局限性：严重依赖PerchV2嵌入质量，在低频海洋场景优势消失；未开源且缺少BALD等更强基线；自适应阈值τ凭经验设定，缺乏灵敏度分析。 🔗 开源详情代码：未提供代码链接模型权重：未提供模型权重下载链接（使用预训练PerchV2嵌入，但未给出具体权重链接）数据集：使用BirdSet（引用[6]）和ATBFL（引用[4]），论文未提供可直接访问的数据集下载链接 Demo：未提及复现材料：未提供训练配置、检查点或其他复现材料论文引用的开源项目： PerchV2（预训练音频嵌入模型，引用[5,2]）— 常见获取方式为Google Research的Perch项目仓库（https://github.com/google-research/perch ） BirdSet（大规模鸟类声学数据集，引用[6]）— 常见链接：https://huggingface.co/datasets/multispecies/BirdSet ATBFL（Acoustic Trends Blue Fin Library，引用[4]）— 论文未提供链接，可能通过 https://data.csiro.au/ 获取 CoreSet选择方法（引用[8]）— 开源实现常见于 https://github.com/dsgissin/DiscriminativeActiveLearning TypiClust（引用未在片段中给出完整信息）— 作为多样性感知基线 BaseAL框架（BioDCASE 2026 Task 4提供）— 论文未提供链接，可能由挑战组织方提供 🏗️ 方法概述和架构该方法基于固定预训练嵌入空间，整体流程为：在每一轮主动学习迭代中，从无标注池中选择一个批次（大小 \(B=25\)）提交标注，更新多标签分类器，重复直到总预算500耗尽。核心是ADU-MMR采样策略，由三个模块级联：不确定性估计、多样性距离计算、自适应加权与MMR批次选择。 ...

Adaptive Loss Balancing for Multi-Task Bioacoustic Classification of Bird Species and Call Types

📄 Adaptive Loss Balancing for Multi-Task Bioacoustic Classification of Bird Species and Call Types #音频分类 #多任务学习 #预训练 #迁移学习 #基准测试 6.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.1/10 | 前50% | #音频分类 | #多任务学习 | #预训练 #迁移学习 | arxiv 👥 作者与机构第一作者：Paria Vali Zadeh（Kiel University, Kiel, Germany）通讯作者：未明确指定，但第一作者为唯一联系作者（paria.vali.zadeh@cs.uni-kiel.de）作者列表：Paria Vali Zadeh（Kiel University, Kiel, Germany）、Sven Tomforde（Kiel University, Kiel, Germany） 💡 毒舌点评该论文系统性地将自适应多任务损失平衡方法搬到鸟声分类任务上，实验覆盖四种骨干、三种适应深度和四种加权策略，工作量足够扎实。但方法层面完全由现有技术拼凑而成，无任何算法创新，且缺乏统计显著性检验，部分结论仅基于三次种子运行的均值差异，结合较小的cmAP差距，说服力打折；数据集需申请且代码未公开，复现性与可验证性存疑。 ...

An Intervention-Based Framework for Shortcut Diagnosis in Spoofing Countermeasures

📄 An Intervention-Based Framework for Shortcut Diagnosis in Spoofing Countermeasures #语音伪造检测 #可解释性 #鲁棒性 6.1/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.1/10 | 前50% | #语音伪造检测 | #自监督学习 | #可解释性 #鲁棒性 | arxiv 👥 作者与机构第一作者：Santiago Rubio（University of Zaragoza, ViVoLab, Aragón Institute for Engineering Research (I3A), Spain）通讯作者：未明确标注，但根据邮件地址推断为 Santiago Rubio (s.rubio@unizar.es) 作者列表： Santiago Rubio（University of Zaragoza, ViVoLab, I3A） Pilar Bello（University of Zaragoza, ViVoLab, I3A） Dayana Ribas（Business Telecommunications Services (BTS), Spain） Antonio Miguel（University of Zaragoza, ViVoLab, I3A） Eduardo Lleida（University of Zaragoza, ViVoLab, I3A） Alfonso Ortega（University of Zaragoza, ViVoLab, I3A） 💡 毒舌点评本文用因果图把"捷径学习"包装得漂亮，干预设计也有巧思——只扰动非语音区就能把模型性能打掉60多个百分点，堪称一记响亮的耳光。但可惜整个诊断只在一套SSL前端上唱独角戏，且代码、置信区间、显著性检验全都欠奉，让这个框架目前更像是精致的学术花瓶，距离落地还有很大距离。更关键的是，自定义DA中针对非语音的修剪本质上形成了循环论证——用已知捷径的解药来证明捷径的危害，发现的惊奇度大打折扣。 ...

ASD: Multi-Level Consistency-Driven Representation Learning

📄 \(C^3\)ASD: Multi-Level Consistency-Driven Representation Learning #音视频理解 #对比学习 #知识蒸馏 #鲁棒性 7.5/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前25% | #音视频理解 | #对比学习 | #知识蒸馏 #鲁棒性 | arxiv 👥 作者与机构第一作者：Jin Hong (Chung-Ang University, Seoul, Republic of Korea)，与 Jisoo Park 为共同第一作者（*Equal contribution）通讯作者：未说明（论文未明确标注通讯作者，第三作者 Junseok Kwon 可能为通讯作者，但文中未标注）作者列表：Jin Hong (Chung-Ang University)、Jisoo Park (Chung-Ang University)、Junseok Kwon (Chung-Ang University) 💡 毒舌点评亮点在于将一致性正则化系统拆解为嵌入级、序列级、预测级三个互补层次，附录中梯度旋转性质、Fisher判别等价性和MSE梯度有界性分析为方法提供了超出一般应用论文的理论深度。短板同样刺眼：完全无开源代码或模型权重，干净数据上mAP增益仅0.2个百分点，LR-ASD以更少参数（0.84M）取得更高mAP（94.5%），方法的绝对性能并非SOTA；腐败场景下1-2%的绝对提升虽具统计意义但实际价值存疑，且所有腐败均为合成注入，缺乏真实恶劣录制环境验证。 ...

Auto-AEG: Scalable Data Construction for Open-Vocabulary Audio Event Grounding

📄 Auto-AEG: Scalable Data Construction for Open-Vocabulary Audio Event Grounding 8.3/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8.3/10 | 前25% | #音频事件检测 | #强化学习 | arxiv 👥 作者与机构第一作者：Zihan Zhang（未说明）通讯作者：未说明作者列表：Zihan Zhang（未说明）、Xize Cheng（未说明）、Wenhao Yan（未说明）、Tong Zhang（未说明）、Dongjie Fu（未说明）、Boyun Zhang（未说明）、Yongbo He（未说明）、Tao Jin（未说明） 💡 毒舌点评这篇论文用一个精巧的pipeline把合成数据和RL奖励信号拧在一起，在“自动造监督”这条路上走了一步好棋。合成数据冷启动很扎实，GRPO在30B模型上把mIoU拉到0.48，DESED上事件F1甚至反超零样本基线，这波数据侧操作确实有效。但7B模型上GRPO的mIoU回退（0.424→0.399）是论文最大的争议点，不能只用“模型太小”搪塞过去，作者自己也承认是精度-召回率权衡，但reward权重的敏感度分析、超参数消融这些本该用来支撑解释的实验一概没有，反而让结论显得虚浮。此外，整个pipeline的伪标签质量高度依赖PE A-Frame的阈值和合并规则，缺乏对label noise的系统分析也是硬伤，让“鲁棒性”的说法打了折扣。 📌 核心摘要该论文试图解决开放词汇音频事件定位任务中标注数据严重不足的问题——手动标注精细时间边界成本高昂，导致大音频语言模型（LALM）难以获得有效的时间监督。为此，作者提出Auto-AEG自动数据构建pipeline：先用程序合成携带精确时间戳的音频做SFT冷启动，再用多模型协作生成的伪标签作为GRPO的奖励信号进行强化学习微调。与已有工作的关键区别在于首次将自动数据构建与RL结合，并且专门为时间定位设计了包含F1-IoU、格式奖励和precision penalty的区间感知奖励函数。关键发现是“数据-目标”的策略性对齐：合成数据的精确标注天然适合SFT的token级监督，而真实音频的噪声伪标注与GRPO的scalar reward噪声容忍特性相契合。在独立发布的难度分层基准AEGBench上，Qwen3-Omni-30B经过两阶段训练后mIoU提升73.9%（0.276→0.480），事件级F1达到0.524，且超越Gemini-3-Pro等外部零样本基线。Qwen2.5-Omni-7B上SFT提升至0.424，但GRPO后mIoU降至0.399，呈现精度-召回率权衡（onset precision从0.411急升至0.594，但onset recall从0.508降至0.435）。在DESED闭集SED迁移实验中，GRPO使30B模型事件F1从0.254升至0.287，验证了其在真实音频环境下修正领域偏移的能力。实际意义在于证明了无需人工标注即可规模化提升LALM的时间定位能力，为音频理解的数据侧扩展提供了可行路径。主要局限包括Stage 1合成数据的domain mismatch、GRPO在7B模型上的不稳定性、30秒编码窗口对长事件定位的硬性限制，以及伪标注系统缺乏与人工标注的基准对比。 ...

CARD: Cross-component Audio Representation Distillation for Encoder-Free Audio Captioning

📄 CARD: Cross-component Audio Representation Distillation for Encoder-Free Audio Captioning #音频字幕生成 #知识蒸馏 #LoRA #音频理解 #参数高效微调 6.3/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | #音频字幕生成 | #知识蒸馏 | #LoRA #音频理解 | arxiv 👥 作者与机构第一作者：Ganesh Pavan Kartikeya Bharadwaj Kolluri（University of Kent, UK）通讯作者：未明确标注作者列表：Ganesh Pavan Kartikeya Bharadwaj Kolluri（University of Kent）、Yuchen Zhang（University of Kent; Queen Mary University of London）、Michael Kampouridis（University of Kent）、Ravi Shekhar（University of Kent; Queen Mary University of London） 💡 毒舌点评这篇论文提出了一个有趣且直觉合理的洞察：在蒸馏编码器知识到无编码器模型时，将低层感知表征给投影器、高层语义表征给语言模型，这种"按需分配"的策略确实有效。然而，尽管消融实验干净地证明了蒸馏位置的重要性，模型在AudioCaps上与保留编码器的基线仍有11个CIDEr-D点的巨大鸿沟，无编码器方法的实用化依然道阻且长，且全文未提及代码和模型的开源承诺，让"摆脱编码器"这个卖点在复现面前变得脆弱。 ...

CaReCoS: A Spectrogram based Visual Benchmark for Cardiac, Respiratory and Cough Sounds

📄 CaReCoS: A Spectrogram based Visual Benchmark for Cardiac, Respiratory and Cough Sounds #音频理解 #基准测试 #医疗音频 #多模态模型 #模型评估 6/10 | 创新 1.2/2 | 严谨 0.8/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6/10 | 前50% | #音频理解 | #提示学习 | #基准测试 #医疗音频 | arxiv 👥 作者与机构第一作者：Harshit Rajgarhia（未说明）通讯作者：未说明作者列表：Harshit Rajgarhia（未说明）、Shuubham Ojha（未说明）、Akhil Pothanapalli（未说明）、Rachuri Lokesh（未说明）、Asif Shaik（未说明）、Abhishek Mukherji（未说明）、Prasanna Desikan（未说明） 💡 毒舌点评论文首次将医学心肺咳嗽声的频谱图作为视觉输入进行多模态推理评测，明确揭示当前顶尖视觉与全能模型在该任务上近乎“全军覆没”（最高仅51.2%），视角新颖且问题尖锐。但整个基准的真相由Gemini 3 Flash自动生成且未经任何临床专家验证，评判同样依赖大模型，这构成了“用大模型评测大模型”的循环依赖，可靠性令人高度不安；同时代码与QA数据集均未开源，社区几乎无法复现或在此基础上推进，本质上是一篇用闭源模型揭示闭源模型缺陷的“空中楼阁”式研究。 ...

CHILDES-Aligned: A Curated Children's Speech Dataset via Multi-Model Timestamp Ensembling

📄 CHILDES-Aligned: A Curated Children's Speech Dataset via Multi-Model Timestamp Ensembling #语音识别 #模型集成 #数据集 #数据清洗 #低资源 7.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #模型集成 | #数据集 #数据清洗 | arxiv 👥 作者与机构第一作者：Haolong Zheng（University of Illinois Urbana-Champaign）通讯作者：Mark A. Hasegawa-Johnson（University of Illinois Urbana-Champaign）作者列表：Haolong Zheng（UIUC）、Yuanzhuo Hu（CUHK, Shenzhen）、Xinyu Liang（CUHK, Shenzhen）、Vishal Sunder（IBM Research）、Dancheng Liu（University at Buffalo, SUNY）、Jinjun Xiong（University at Buffalo, SUNY）、Samuel Thomas（IBM Research）、Brian Kingsbury（IBM Research）、Zhizheng Wu（CUHK, Shenzhen）、Mark A. Hasegawa-Johnson（UIUC） 💡 毒舌点评这篇论文把一个务实的工程问题解决得相当漂亮：用多模型集成投票替代脆弱的单系统对齐，把那个乱糟糟的 CHILDES 时间戳修到可用水平，并且大方地放出了数据和代码。不过方法本身的创新深度有限，本质上是对齐+投票的组合拳，缺少对组件或超参数的深入消融分析，实验部分更像是产品交付报告而非严格的研究验证，微调实验关键细节的缺失让复现性打了折扣。 ...

Context-Aware ASR for Mandarin Technical Lectures

📄 Context-Aware ASR for Mandarin Technical Lectures #语音识别 6/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.7/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 0.3/1.5 | 复现 0.2/0.5 | 工程 1.3/1.5 ✅ 6/10 | 前50% | #语音识别 | #提示学习 | arxiv 👥 作者与机构第一作者：Ho-Lam Chung（National Taiwan University, ASUS）通讯作者：未说明作者列表：Ho-Lam Chung（National Taiwan University, ASUS）、Yiming Chen（ASUS）、Hung-yi Lee（National Taiwan University） 💡 毒舌点评这篇论文找到了一个真实的应用痛点：技术讲座ASR中，核心语义载体——英文术语的识别错误被CER完全掩盖。提出的“用模型自己的输出来引导自己”的两阶段思路非常讨巧，完全无需外部知识库，工业落地门槛极低。但痛点发现得精准，解法却过于工程化。术语抽取依赖简陋的规则集，且仅在一个讲师、一个领域上验证，让人严重怀疑其泛化能力。更致命的是，方法存在根本性覆盖瓶颈——模型压根没见过的生僻术语，第一遍转不出，第二遍也猜不到，所谓的“自建词表”从源头上就是残缺的。这更像一份来自工业界的实用技术报告，而非能够推动领域认知边界的学术研究。 📌 核心摘要本文聚焦于中文技术讲座场景下，中英混合语音中英文技术术语的识别问题。作者指出，常规的字符错误率（CER）会掩盖这些低频但高信息量的术语的识别失败。为此，他们构建了一个包含8,888个术语标注的5.01小时测试集，并定义了术语召回率、精确率、F1和术语错误率（TermER）四项直接评估术语识别效果的指标。核心方法“ASR-GLOSSARY”是一种完全无需参考转录的两阶段解码策略：第一阶段对讲座各片段独立进行ASR，从所有初步转录假设中按频次提取技术术语，构建自建词表；第二阶段将该词表作为上下文提示注入模型，进行第二轮解码以提升术语识别。在五个主流ASR主干模型上的实验表明，该方法均提升了术语召回率（最高+17.59%），并在多数情况下降低了CER。与少量外部课程术语列表混合后，在Breeze-ASR-25上达到了62.05%的召回率和9.40%的CER。主要局限在于场景受限（单一讲师、AI/ML领域），且自建词表对模型完全未识别出的术语无能为力。模型上下文 CER (%) 召回 (%) ΔR 精确率 (%) F1 (%) TermER (%) Breeze-ASR-25 基线 11.37 52.50 - 80.55 63.57 48.66 +第一遍词表(k=30) 9.79 60.13 +7.63 81.20 69.09 41.38 +标题+上文+词表 9.19 59.51 +7.01 82.19 69.03 41.74 whisper-l-v3-turbo 基线 13.80 53.90 - 65.11 58.98 49.67 +第一遍词表(k=30) 12.82 60.86 +6.95 63.79 62.29 45.93 +标题+上文+词表 15.89 59.74 +5.84 65.03 62.28 48.77 Qwen3-ASR-1.7B 基线 16.13 49.03 - 72.84 58.61 53.31 +第一遍词表(k=30) 14.02 56.56 +7.53 74.43 64.27 47.10 +标题+上文+词表 13.93 56.60 +7.57 76.11 64.92 46.26 Qwen3-ASR-0.6B 基线 18.91 44.28 - 71.19 54.60 58.20 +第一遍词表(k=30) 18.86 53.74 +9.45 65.92 59.21 54.64 +标题+上文+词表 25.39 54.43 +10.15 59.79 56.99 64.99 Breeze-ASR-26 基线 38.28 27.31 - 56.26 36.77 75.14 +第一遍词表(k=30) 26.05 44.89 +17.59 57.15 50.28 62.27 +标题+上文+词表 21.67 49.73 +22.42 63.32 55.71 54.53 词表来源 CER (%) 召回 (%) 精确率 (%) F1 (%) TermER (%) 基线 11.37 52.50 80.55 63.57 48.66 第一遍词表 9.79 60.13 81.20 69.09 41.38 外部列表 10.04 60.29 81.89 69.45 41.38 混合 9.40 62.05 82.73 70.91 39.39 神谕表 8.19 68.88 86.70 76.77 32.71 🏗️ 方法概述和架构本文提出“ASR-GLOSSARY”——一种无需参考转录的两阶段上下文增强解码方法，旨在提升中文技术讲座中英文术语的识别率。其核心思想是利用技术术语在讲座中的“爆发性”重复出现特性，从模型自身输出中挖掘上下文信号。 ...