低资源 | 语音/音乐/音频论文速递

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

📄 Convex Low-resource Accent-Robust Language Detection in Speech Recognition #** #凸优化 #语音识别 #语言检测 #低资源 #口音鲁棒性 #ADMM ✅ 7.5/10 | 前25% | #** | #凸优化 | #语音识别 #语言检测 | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning

📄 Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning #音频编码 #强化学习 #语音质量评估 #低资源 ✅ 6.5/10 | 前50% | #音频编码 | #强化学习 | #语音质量评估 #低资源 | arxiv 学术质量 4.6/7 | 影响力 1.1/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构第一作者：Junyi Wang（清华大学）通讯作者：未说明作者列表：Junyi Wang（清华大学），Chi Zhang（清华大学），Jing Qian（华为技术有限公司），Haifeng Luo（华为技术有限公司），Hao Wang（华为技术有限公司），Zengrui Jin（清华大学），Chao Zhang（清华大学） 💡 毒舌点评这篇论文针对极低比特率（300bps）下语音可懂度优先的特定场景，提出了一个两阶段（重建预训练+强化学习微调）的神经编解码器ClariCodec。其核心创新在于将离散量化过程重构为可微的随机策略，并使用WER作为奖励信号进行直接优化，这确实是领域内一个新颖的尝试。实验结果在LibriSpeech干净集上也显示出了一定的可懂度提升。然而，其整体影响力受到严重限制：1）评估场景极其单一，仅在一个干净、特定的语音数据集上验证，未能证明在真实噪声信道或不同语言、说话人下的有效性；2）与基线模型的对比存在显著不公平性，未深入讨论模型规模、训练数据量的巨大差异（如StableCodec-400参数量是其3倍多）；3）核心创新“首次应用RL”缺乏足够的方法论深度分析和广泛的实验验证；4）未开源代码和模型，严重影响复现与验证。整体上，这更像是一项针对特定约束条件的初步方法论探索，离成为该领域的“里程碑”还有相当距离。 📌 核心摘要要解决什么问题：在卫星/水下通信等极端带宽受限场景（如300bps），传统神经语音编解码器基于波形重建的训练目标会导致比特分配偏向感知细节，牺牲关键的语音可懂度。方法核心是什么：提出ClariCodec，一个两阶段训练框架。第一阶段使用改进的有限标量量化（iFSQ）和传统重建损失进行预训练。第二阶段核心创新是将量化过程随机化（Stochastic Residual Quantization），使其成为可微的策略，然后冻结解码器和声码器，仅使用强化学习（GRPO）和基于预训练ASR模型的WER奖励信号来微调编码器，以直接优化语音可懂度。与已有方法相比新在哪里：与主要依赖自监督学习、ASR或语言模型表示的语义编解码器，或专注于感知质量的编解码器不同，本工作首次将语音编解码器的量化决策建模为随机策略，并应用强化学习直接优化非可微的WER指标。这是一个旨在更根本地对齐比特分配与语义信息的新颖训练范式。主要实验结果如何：在LibriSpeech上，ClariCodec在300bps下实现了3.55%的test-clean WER（相对基线4.64%降低23.5%），优于更高比特率（如400bps）的StableCodec-400（4.88%）。其声学质量指标（PESQ 1.87， UTMOS 4.16）与部分更高比特率模型相当。消融实验证实了结合RL损失与mel重建损失对平衡可懂度与感知质量的重要性。实际意义是什么：为极低比特率、对可懂度要求严苛的通信场景（如应急通信、深海/太空探索）提供了一种新的技术思路，通过将语言理解模型（ASR）的监督信号引入编解码器训练，实现了语义优先的压缩。主要局限性是什么：评估数据集单一（仅LibriSpeech），缺乏对真实噪声信道、不同语言或说话人的测试；模型为非因果架构，无法直接用于需要低延迟的实时通信；未提供完整开源代码和预训练模型，限制了研究的可复现性和快速验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及 ClariCodec 模型权重的发布链接。数据集：训练数据集：使用了 Libriheavy 的一个 50,000 小时子集。论文中未提供数据集获取链接。评估数据集：使用了 LibriSpeech 的 test-clean 和 test-other 子集。LibriSpeech 是一个开源数据集，通常可通过 https://www.openslr.org/12/ 获取。 Demo：音频样本演示地址为：https://demo941.github.io/ClariCodec/ 复现材料：论文详细提供了训练配置，包括： Stage 1 (重建预训练)：在 8 张 NVIDIA H200 GPU 上训练 500k 步，批量大小为 64，音频随机裁剪至约 4 秒。损失系数为：λ_rec=15, λ_adv=1, λ_fm=1, λ_mrd=0.2。 Stage 2 (RL微调)：在 8 张 NVIDIA H200 GPU 上训练 100k 步，批量大小为 8，GRPO 组大小为 16，音频裁剪至约 5.1 秒。损失系数为：λ_RL=10, λ_mel=1。优化器与学习率：使用 AdamW 优化器 (β1=0.8, β2=0.9)，采用 one-cycle 学习率调度（前 5% 步数为余弦预热，之后余弦衰减）。Stage 1 峰值学习率为 1e-3，Stage 2 为 1e-5。论文未提供预训练模型检查点的下载链接，也未提及训练数据集的具体下载方式。论文中引用的开源项目： Hybrid FastConformer TDT-CTC (ASR 模型)：用于计算 WER。链接：https://huggingface.co/nvidia/parakeet-tdt_ctc-1.1b WavLM 说话人验证模型：用于计算说话人相似度 (SIM)。链接：https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification EnCodec：基线模型，论文使用其第一层 RVQ 达到 750 bps。论文中未提及具体代码或权重链接。 Vocos：作为声码器 (vocoder) 从头训练并联合优化。论文中未提及具体代码链接。其他基线模型 (StableCodec, FlexiCodec, SAC, WavTokenizer, SoCodec, SemantiCodec, LSCodec)：论文中未提及这些模型的具体代码或权重链接，仅说明使用了它们的官方检查点进行评估。 GRPO (Group Relative Policy Optimization)：用于 RL 训练。论文中未提及该方法的具体代码仓库链接。 🏗️ 方法概述和架构整体流程概述：ClariCodec是一个端到端的神经语音编解码器，采用两阶段训练策略。第一阶段（Stage 1）使用传统的重建目标进行端到端预训练，学习基本的语音压缩与重建能力。第二阶段（Stage 2）冻结除编码器外的所有组件，将编码器建模为一个生成量化token的随机策略，并使用强化学习（RL）直接以单词错误率（WER）为奖励信号对其进行微调，从而优化语音可懂度。 ...

SEABAD: A Tropical Bird Activity Detection Dataset for Passive Acoustic Monitoring

📄 SEABAD: A Tropical Bird Activity Detection Dataset for Passive Acoustic Monitoring #生物声学 #音频事件检测 #数据集 #低资源 #模型评估 #边缘计算 🔥 8.1/10 | 前50% | #生物声学 #音频事件检测 | #数据集构建 #模型评估 | #生物声学 #音频事件检测 | arxiv 学术质量 5.1/7 | 影响力 1.0/2 | 可复现性 2.0/2 | 置信度高 👥 作者与机构第一作者：Muhammad Mun’im Ahmad Zabidi（马来亚大学计算机科学与信息技术学院；马来西亚工艺大学电气工程学院）通讯作者：未说明作者列表：Muhammad Mun’im Ahmad Zabidi（马来亚大学计算机科学与信息技术学院；马来西亚工艺大学电气工程学院），Mohd Yamani Idna Idris（马来亚大学计算机科学与信息技术学院），Norisma Idris（马来亚大学计算机科学与信息技术学院） 💡 毒舌点评这篇论文是一份标准的、执行得不错的“数据集构建”工作。它清晰地识别了生物声学领域一个实际的痛点（缺乏东南亚热带数据集），并系统性地提出了一个解决方案。其核心价值在于提供了一个经过整理、开源、并配有详细构建流程的资源，对特定生态区域的研究者有用。然而，它本质上是应用现有技术进行数据工程，而非算法创新。基线实验设计过于简单，导致性能数字“爆表”，反而可能引发对任务真实难度的怀疑。论文最大的隐患在于负样本生态代表性的不足，这为其“适用于真实部署”的声称埋下了伏笔。 📌 核心摘要问题：现有鸟类活动检测（BAD）数据集与模型主要基于温带地区，无法适应物种丰富、背景噪声复杂的东南亚热带生态系统，尤其是对于资源受限的边缘设备部署。方法核心：提出SEABAD数据集（50,000个3秒片段）及其双分支自动化整理流程。正样本分支通过从Xeno-Canto提取录音，经过元数据获取、下载转换、声学去重、分段提取、多样性感知物种平衡和质量保证六个阶段生成25,000个鸟鸣片段。负样本分支从六个不同的环境声音数据集中提取非鸟类声音片段，共同构成平衡的数据集。新颖之处：主要贡献是一个为东南亚热带生态系统构建的、面向边缘部署（3秒，16kHz）的BAD数据集。提出了结合声学显著性评分、聚类和优先队列回填的“多样性感知物种平衡”方法，以减少长尾分布（Gini系数降低13.7%）并保持声学多样性。主要结果：在基线实验中，多个预训练CNN模型在测试集上均达到了99.49%以上的准确率和0.998以上的AUC。其中，轻量级模型MobileNetV3-Small（1.1M参数）的准确率为99.57% ± 0.25%。零样本通用模型BirdNET在该数据集上准确率仅为68.62%，凸显了领域迁移的挑战。人工审计确认了97.8% ± 0.9%的正样本标签准确率。实际意义：为东南亚热带地区的被动声学监测提供了关键的基础数据资源，支持开发节能、高效的边缘AI鸟类检测模型。主要局限：数据集地理范围限于东南亚五国；负样本主要来源于全球或温带数据集，可能未充分覆盖热带特有的环境噪声（如密集蝉鸣、灵长类叫声），影响模型在真实热带部署时的鲁棒性；数据集专注于二分类检测，不适用于物种分类任务。 🔗 开源详情代码：https://github.com/mun3im/seabad 模型权重：包含在数据集发布包中，可通过 Zenodo (https://zenodo.org/records/18290494) 或 GitHub 仓库获取。数据集：SEABAD，可从 Zenodo 获取：https://zenodo.org/records/18290494 Demo：论文中未提及复现材料：论文中提及了以下复现材料，均包含在开源代码和数据集发布中：完整的双分支数据策展流水线代码（包含预处理、去重、物种平衡算法）。预处理和去重脚本。多样性感知平衡算法。训练好的基线模型权重（如MobileNetV3-Small等）。完整的溯源元数据（包括Xeno-Canto ID、坐标、许可证）。训练/验证/测试集划分。基线验证的完整实验代码：https://github.com/mun3im/mybad/tree/main/validation 论文中引用的开源项目： Xeno-Canto（数据来源）：https://xeno-canto.org/ AudioMoth（硬件平台）：https://www.openacousticdevices.info/audiomoth BirdNET（用于零样本评估的通用模型）：https://birdnet.cornell.edu/ FAISS（用于近似最近邻搜索和声学去重）：https://github.com/facebookresearch/faiss librosa（用于音频处理）：https://librosa.org/ TinyChirp（引用的边缘部署框架）：https://github.com/earthspeciesproject/tinybird 🏗️ 方法概述和架构本文的核心贡献是SEABAD数据集及其构建方法论，而非一个端到端的推理模型。其方法架构是一个多阶段、双分支的自动化数据整理流水线，旨在从原始、杂乱的社区贡献录音和多源环境声音中，系统化地产出高质量、平衡的鸟类活动检测训练数据。 ...

语音/音乐/音频论文速递 2026-05-21

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜（40 篇，按分数降序）排名论文评分分档主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...

Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian

📄 Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian #语音识别 #大语言模型 #低资源 #数据污染 #评估方法 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #低资源 #数据污染 | arxiv 学术质量 6.1/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Yun Hao（University of Groningen, The Netherlands）通讯作者：未说明作者列表：Yun Hao（University of Groningen, The Netherlands）、Reihaneh Amooie（University of Groningen, The Netherlands）、Wietse de Vries（University of Groningen, The Netherlands）、Rik van Noord（University of Groningen, The Netherlands）、Martijn Wieling（University of Groningen, The Netherlands） 💡 毒舌点评论文敏锐地捕捉到了一个在低资源ASR纠错评估中至关重要却常被忽视的问题——数据污染，并通过构建一个精巧的私有数据集来进行“干净”的对照实验，这种方法论设计堪称典范。然而，其核心技术方案（N-best列表+LLM prompting）本身并无新意，更像是一项扎实、严谨且具有重要警示意义的实证研究，而非一项技术方法的突破性创新。论文的价值在于为领域建立了一个更可信的评估标准，而非提出一个全新的算法。 ...

语音/音乐/音频论文速递 2026-05-20

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...

Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation

📄 Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation #语音识别 #知识蒸馏 #多语言 #低资源 #伪标签 ✅ 6.2/10 | 前50% | #语音识别 | #知识蒸馏 | #多语言 #低资源 | arxiv 学术质量 4.7/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Sewade Ogun 通讯作者：未明确说明（论文仅提供第一作者邮箱）作者列表：Sewade Ogun 💡 毒舌点评这篇论文是一项扎实的工程集成工作，为尼日利亚低资源语言构建了一套完整的多语言ASR训练流水线，并开源了模型。其最大价值在于填补了该领域缺乏专用开源基础模型的空白，并通过详尽的工程优化（如伪标签生成流水线、皮钦语文本归一化）取得了优于现有基线的性能。然而，核心方法（知识蒸馏+伪标签迭代）是已有技术的直接应用，缺乏架构或算法层面的创新。对于顶会而言，其贡献更偏向于系统集成与数据处理，而非方法论上的突破。 📌 核心摘要问题：现有支持尼日利亚语言（约鲁巴语、豪萨语、伊博语、尼日利亚皮钦语、尼日利亚英语）的多语言ASR系统性能落后于高资源语言，主要挑战包括数据稀缺、不规则正字法、声调变音符号、语码转换及本地命名实体。方法核心：提出一个两阶段多语言ASR框架。第一阶段，利用多个现有的单语教师模型，通过带N-gram语言模型融合的CTC解码生成伪标签，结合少量人工标注数据，通过知识蒸馏训练一个统一的多语言学生模型（SBPN）。第二阶段，使用训练好的学生模型对未标注数据生成更优伪标签，经置信度过滤后进行迭代自训练。与已有方法相比的新颖性：论文未提出新的模型架构或训练算法。其新颖性在于系统性地集成并优化了现有技术（知识蒸馏、大规模伪标签生成、针对特定语言的文本归一化、轻量化模型设计），专门解决尼日利亚语言ASR的独特挑战，是一个针对特定语言群组的工程化解决方案。主要实验结果： SBPN-Large在Fleurs测试集上相对于单语教师模型实现了平均29%的相对WER降低。 SBPN-Base（120M参数）在Common Voice测试集上平均WER为25.53%，显著优于同量级基线AfriHuBERT（64.27%）和mHuBERT-147（69.53%）。 SBPN-Large（600M参数）在Fleurs测试集上平均WER为32.72%，优于参数量更大的MMS-1B（41.23%）和Whisper Large（116.46%）。模型对语速变化表现出更强的鲁棒性（图3）。模型在语言识别任务上也表现出色（表6）。实际意义：提供了首个专门为尼日利亚主要语言构建的开源多语言基础ASR模型（SBPN），降低了该领域研究和应用的门槛，有助于数字鸿沟的弥合和语言保护。主要局限性：对于含声调变音符号的语言（如约鲁巴语），模型在正确预测变音符号方面仍有较大提升空间（图4）；论文坦承生成式纠错（GEC）方法引入了幻觉；主要创新在于系统集成而非方法论突破；未充分测试模型处理语码转换的能力。 🔗 开源详情代码：论文中未提及代码链接。模型权重： SBPN-Base checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_base SBPN-Large checkpoint: https://huggingface.co/ogunlao/SBPN_multilingual_large 单语教师模型 (Hausa): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-hausa_579_993h_yourtts 单语教师模型 (Igbo): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-igbo_naijavoices_500h 单语教师模型 (Yorùbá): https://huggingface.co/CLEAR-Global/w2v-bert-2.0-yoruba_naijavoices_500h 单语教师模型 (Nigerian Pidgin): https://huggingface.co/asr-nigerian-pidgin/pidgin-wav2vec2-xlsr53 SBPN-Base 预训练权重：https://huggingface.co/nvidia/parakeet-tdt_ctc-110m 数据集： Common Voice (https://commonvoice.mozilla.org/) Naijavoice dataset (论文中未提供链接，仅提及数据集名和出处) Fleurs (https://huggingface.co/datasets/google/fleurs) SLR86 (https://www.openslr.org/86/) BibleTTS (论文中未提供链接，仅提及数据集名和出处) Igbo-asr (https://www.kaggle.com/code/jameskaile/igbo-asr/input) Nigerian pidgin dataset (论文中未提供链接，仅提及数据集名和出处) Afrispeech-200 (论文中未提供链接，仅提及数据集名和出处) Gigaspeech (https://github.com/Speechcolab/gigaspeech) 未标注数据集：约10000小时，来源于尼日利亚广播、在线音频平台和免费播客，论文中未提供获取链接。 Demo：论文中未提及。复现材料：模型超参数详情见论文附录 C。用于尼日利亚皮钦英语文本规范化的同音词列表见论文附录 A 和 B。训练细节：使用 NeMo 语音工具包，采用 AdamW 优化器，进行 SpecAugment、噪声添加、时间拉伸等数据增强。论文中引用的开源项目： NeMo (https://github.com/NVIDIA/NeMo) KenLM (https://github.com/kpu/kenlm) MossFormer2 (论文中未提供链接，仅提及论文) Pyannote speaker diarization toolkit (https://github.com/pyannote/pyannote-audio) Silero VAD (https://github.com/snakers4/silero-vad) VoxLingua107-ECAPA (https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa) AfroLID (论文中未提供链接，仅提及论文) Flashlight decoder (https://github.com/flashlight/flashlight) pyctcdecode (https://github.com/kensho-technologies/pyctcdecode) PyTSMod (https://github.com/KAIST-MACLab/PyTSMod) MUSAN dataset (论文中未提供链接，仅提及论文) Text processing tool (论文中未提供链接，仅提及论文) 🏗️ 方法概述和架构本文的SBPN框架是一个端到端的多语言ASR系统构建流程，其核心是通过知识蒸馏将多个单语教师模型的能力融合到一个统一的多语言学生模型中，并利用伪标签进行迭代自改进。 ...

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations

📄 UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations #语音识别 #数据集 #多语言 #低资源 #数据清洗 ✅ 7/10 | 前25% | #语音识别 | #数据集 | #多语言 #低资源 | arxiv 学术质量 5.8/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Attia Nafees ul Haq (Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University) 通讯作者：Attia Nafees ul Haq, Lei Xie (邮箱：attianafees@mail.nwpu.edu.cn, lxie@nwpu.edu.cn) 作者列表：Attia Nafees ul Haq (ASLP@NPU, Northwestern Polytechnical University), Zeyu Zhu (ASLP@NPU, Northwestern Polytechnical University), Jingbin Hu (ASLP@NPU, Northwestern Polytechnical University), ChunJiang He (ASLP@NPU, Northwestern Polytechnical University), Lei Xie (ASLP@NPU, Northwestern Polytechnical University) 💡 毒舌点评亮点：针对乌尔都语这一“高人口、低资源”语言，首次系统构建了包含156小时音频、12维副语言标注的大规模开放语料库，有效解决了RTL脚本和代码切换两大处理难题，为相关研究提供了关键基础设施。短板：论文核心贡献是数据集及数据整理流水线，但对流水线核心组件（尤其是基于Gemini的提示工程）的细节描述和消融分析不足，更像一份详尽的工程报告。更关键的是，所有转录和标注质量都深度绑定一个闭源商业模型（Gemini 2.5 Pro），其长期可及性、结果一致性和完全可复现性存疑，这构成了方法论上的根本性弱点。 ...

语音/音乐/音频论文速递 2026-05-19

语音/音乐/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（34 篇，按分数降序）排名论文评分分档主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分前50% #语音合成 20. Stable Audio 3 6.8分前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction

📄 Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction #语音生物标志物 #数据增强 #大语言模型 #医疗音频 #低资源 ✅ 6/10 | 前50% | #语音生物标志物 | #数据增强 | #大语言模型 #医疗音频 | arxiv 学术质量 5.4/8 | 影响力 0.6/1 | 可复现性 0/1 | 置信度中 👥 作者与机构第一作者：Si-Belkacem Yamine Ketir (Télécom SudParis, France) 通讯作者：未说明作者列表：Si-Belkacem Yamine Ketir (Télécom SudParis, France)、Lenard Paulo Tamayo (Nara Institute of Science and Technology, Japan)、Shohei Hisada (Nara Institute of Science and Technology, Japan)、Shaowen Peng (Nara Institute of Science and Technology, Japan)、Shoko Wakamiya (Nara Institute of Science and Technology, Japan)、Eiji Aramaki (Nara Institute of Science and Technology, Japan) 💡 毒舌点评本文提出了一个逻辑清晰、临床动机明确的数据增强框架，其核心亮点在于“书面锚定+风格转换”的受控生成范式，并创新性地引入相似性引导策略以提升合成数据的语义保真度。然而，其说服力严重受限于实验规模：在一个仅30人、分布极不平衡且未公开的特定语料库上得出结论，且基线选择过于薄弱（仅对比无增强和高斯噪声），未与领域内更相关的文本增强方法（如EDA、回译）或更强大的预测模型进行对比，使得方法优越性的声称显得证据不足。此外，论文依赖于闭源的GPT-5模型，严重损害了工作的可复现性与普适性。 ...