伪标签 | 语音/音乐/音频论文速递

Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation

📄 Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation #语音识别 #知识蒸馏 #多语言 #低资源 #伪标签 ✅ 6.2/10 | 前50% | #语音识别 | #知识蒸馏 | #多语言 #低资源 | arxiv 学术质量 4.7/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Sewade Ogun 通讯作者：未明确说明（论文仅提供第一作者邮箱）作者列表：Sewade Ogun 💡 毒舌点评这篇论文是一项扎实的工程集成工作，为尼日利亚低资源语言构建了一套完整的多语言ASR训练流水线，并开源了模型。其最大价值在于填补了该领域缺乏专用开源基础模型的空白，并通过详尽的工程优化（如伪标签生成流水线、皮钦语文本归一化）取得了优于现有基线的性能。然而，核心方法（知识蒸馏+伪标签迭代）是已有技术的直接应用，缺乏架构或算法层面的创新。对于顶会而言，其贡献更偏向于系统集成与数据处理，而非方法论上的突破。 📌 核心摘要问题：现有支持尼日利亚语言（约鲁巴语、豪萨语、伊博语、尼日利亚皮钦语、尼日利亚英语）的多语言ASR系统性能落后于高资源语言，主要挑战包括数据稀缺、不规则正字法、声调变音符号、语码转换及本地命名实体。方法核心：提出一个两阶段多语言ASR框架。第一阶段，利用多个现有的单语教师模型，通过带N-gram语言模型融合的CTC解码生成伪标签，结合少量人工标注数据，通过知识蒸馏训练一个统一的多语言学生模型（SBPN）。第二阶段，使用训练好的学生模型对未标注数据生成更优伪标签，经置信度过滤后进行迭代自训练。与已有方法相比的新颖性：论文未提出新的模型架构或训练算法。其新颖性在于系统性地集成并优化了现有技术（知识蒸馏、大规模伪标签生成、针对特定语言的文本归一化、轻量化模型设计），专门解决尼日利亚语言ASR的独特挑战，是一个针对特定语言群组的工程化解决方案。主要实验结果： SBPN-Large在Fleurs测试集上相对于单语教师模型实现了平均29%的相对WER降低。 SBPN-Base（120M参数）在Common Voice测试集上平均WER为25.53%，显著优于同量级基线AfriHuBERT（64.27%）和mHuBERT-147（69.53%）。 SBPN-Large（600M参数）在Fleurs测试集上平均WER为32.72%，优于参数量更大的MMS-1B（41.23%）和Whisper Large（116.46%）。模型对语速变化表现出更强的鲁棒性（图3）。模型在语言识别任务上也表现出色（表6）。实际意义：提供了首个专门为尼日利亚主要语言构建的开源多语言基础ASR模型（SBPN），降低了该领域研究和应用的门槛，有助于数字鸿沟的弥合和语言保护。主要局限性：对于含声调变音符号的语言（如约鲁巴语），模型在正确预测变音符号方面仍有较大提升空间（图4）；论文坦承生成式纠错（GEC）方法引入了幻觉；主要创新在于系统集成而非方法论突破；未充分测试模型处理语码转换的能力。 🔗 开源详情代码：论文中未提及代码链接。模型权重： SBPN-Base checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_base SBPN-Large checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_large 单语教师模型 (Hausa): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-hausa_579_993h_yourtts 单语教师模型 (Igbo): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-igbo_naijavoices_500h 单语教师模型 (Yorùbá): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_500h 单语教师模型 (Nigerian Pidgin): https://huggingface.co/asr-nigerian-pidgin/pidgin-wav2vec2-xlsr53 SBPN-Base 预训练权重：https://huggingface.co/nvidia/parakeet-tdt_ctc-110m 数据集： Common Voice (https://commonvoice.mozilla.org/) Naijavoice dataset (论文中未提供链接，仅提及数据集名和出处) Fleurs (https://huggingface.co/datasets/google/fleurs) SLR86 (https://www.openslr.org/86/) BibleTTS (论文中未提供链接，仅提及数据集名和出处) Igbo-asr (https://www.kaggle.com/code/jameskaile/igbo-asr/input) Nigerian pidgin dataset (论文中未提供链接，仅提及数据集名和出处) Afrispeech-200 (论文中未提供链接，仅提及数据集名和出处) Gigaspeech (https://github.com/Speechcolab/gigaspeech) 未标注数据集：约10000小时，来源于尼日利亚广播、在线音频平台和免费播客，论文中未提供获取链接。 Demo：论文中未提及。复现材料：模型超参数详情见论文附录 C。用于尼日利亚皮钦英语文本规范化的同音词列表见论文附录 A 和 B。训练细节：使用 NeMo 语音工具包，采用 AdamW 优化器，进行 SpecAugment、噪声添加、时间拉伸等数据增强。论文中引用的开源项目： NeMo (https://github.com/NVIDIA/NeMo) KenLM (https://github.com/kpu/kenlm) MossFormer2 (论文中未提供链接，仅提及论文) Pyannote speaker diarization toolkit (https://github.com/pyannote/pyannote-audio) Silero VAD (https://github.com/snakers4/silero-vad) VoxLingua107-ECAPA (https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa) AfroLID (论文中未提供链接，仅提及论文) Flashlight decoder (https://github.com/flashlight/flashlight) pyctcdecode (https://github.com/kensho-technologies/pyctcdecode) PyTSMod (https://github.com/KAIST-MACLab/PyTSMod) MUSAN dataset (论文中未提供链接，仅提及论文) Text processing tool (论文中未提供链接，仅提及论文) 🏗️ 方法概述和架构本文的SBPN框架是一个端到端的多语言ASR系统构建流程，其核心是通过知识蒸馏将多个单语教师模型的能力融合到一个统一的多语言学生模型中，并利用伪标签进行迭代自改进。 ...

语音/音乐/音频论文速递 2026-05-19

语音/音乐/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（34 篇，按分数降序）排名论文评分分档主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分前50% #语音合成 20. Stable Audio 3 6.8分前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

A Semi-Supervised Framework for Speech Confidence Detection using Whisper

📄 A Semi-Supervised Framework for Speech Confidence Detection using Whisper #语音自信度检测 #半监督学习 #伪标签 #迁移学习 #Whisper #数据增强 #低资源 #语音大模型 ✅ 6.5/10 | 未提及 | #语音自信度检测 | #半监督学习 | #伪标签 #迁移学习 | arxiv 学术质量 6.0/8 | 影响力 0.6/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Adam Wynn 通讯作者：未说明作者列表：Adam Wynn（未说明具体学术机构，但论文脚注提及由IEEE Publication Technology Group制作，地址在Piscataway, NJ），Jingyun Wang（未说明） 💡 毒舌点评这篇论文为“感知自信度检测”这一小众且缺乏基准的任务构建了一个完整、实验扎实的半监督框架。其核心思路——结合Whisper的语义能力与可解释声学特征（eGeMAPS + 辅助模型）进行晚期融合，并通过“不确定性感知”伪标签扩充数据——在解决数据稀缺问题上逻辑自洽且有效。然而，其创新性更多体现在系统集成和工程优化，而非方法论的根本突破。文中多个关键超参数（如伪标签阈值τ、融合权重λ、损失权重18.0）的选择依据仅提及“经验消融”或“经验性确定”，缺乏充分的实验展示或理论推导，使得部分设计略显“黑箱”。尽管实验结果支持了其框架的有效性，但单一、未公开的小规模数据集评估限制了结论的泛化说服力。 📌 核心摘要要解决什么问题：自动检测语音中的感知说话人自信度对于自适应计算和情感交互至关重要，但面临标注数据稀缺（任务主观且无公开基准）和现有方法局限（纯声学特征泛化差，纯自监督模型可能忽略细粒度韵律线索）的挑战。方法核心是什么：提出一个五阶段半监督混合框架：(A) 构建并标注小型数据集；(B) 提取Whisper语义嵌入和94维声学特征向量（eGeMAPS + 辅助不流畅/压力模型概率）；(C) 训练辅助的不流畅性和压力检测模型；(D) 用仅基于声学特征向量训练的MLP对无标签数据生成伪标签，并通过高置信度阈值(τ=0.8)过滤；(E) 训练一个双流晚期融合的混合模型，融合Whisper流和特征向量流的输出，并使用源增强损失函数在真值+伪标签数据上训练。与已有方法相比新在哪里：首次为感知自信度检测提出专用半监督框架。核心创新点在于：(1) 架构创新：明确提出并实现了将Whisper深度语义表示与可解释声学特征（含辅助任务线索）进行晚期融合，以显式引入韵律纠正信号；(2) 策略创新：引入“不确定性感知”伪标签策略，强调通过严格的置信度过滤来保证伪标签质量，而非单纯追求数量。 ...

语音/音乐/音频论文速递 2026-05-13

语音/音乐/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...