WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #扩散模型 #低资源 🔥 8.5/10 | 前25% | #语音合成 | #生成对抗网络 | #扩散模型 #低资源 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 1.3/2 | 置信度 高 👥 作者与机构 未提及。 💡 毒舌点评 这篇论文在工程实用性和架构统一性上做得不错,但部分宣传和分析需要更审慎。声称“首次”统一框架,但框架本身的核心(残差去噪、子模型)并非原创,主要贡献在于将ConvNeXt生成器成功适配到两种范式并进行了充分的实证对比。其提出的“简化”GAN训练策略(无需初始噪声和增益调整)的理论依据和泛化能力存疑,更像是一种经验性的工程trick。子模型导致参数线性增长是一个显著的实用缺陷,作者虽提及但轻描淡写,这对资源敏感的部署场景影响很大。论文将“多说话人性能提升”作为重要卖点,但除了展示在LibriTTS-R上的结果,并未深入分析其机制(如说话人嵌入、归一化技术的改进),显得结论有余而洞察不足。总体而言,这是一篇扎实的系统性工作,但距离开创性研究尚有差距。 📌 核心摘要 本文提出了WaveNeXt 2,一个基于ConvNeXt的统一生成器框架,可同时应用于GAN和扩散模型两种神经声码器。其核心创新在于引入了残差去噪和子模型结构,使生成器能够以迭代方式从噪声中逐步恢复波形。在多说话人数据集LibriTTS-R上的实验表明:(1) GAN-WaveNeXt 2在保持与WaveFit、HiFi-GAN相当合成质量的同时,实现了GPU上70%、CPU上高达90%的推理速度提升;(2) 扩散模型版本Diff-WaveNeXt 2在4步推理下,CPU推理速度比FastDiff快80%,并取得了有竞争力的合成质量;(3) Diff-WaveNeXt 2的训练效率极高,仅需32小时。该框架为不同应用场景(快速部署或高质量合成)提供了灵活的选择。 🔗 开源详情 代码:论文未提供WaveNeXt 2自身的官方代码、模型权重或训练脚本链接。但提供了其复现所依赖的第三方开源项目链接: ParallelWaveGAN (HiFi-GAN V1 非官方实现): https://github.com/kan-bayashi/ParallelWaveGAN WaveFit 非官方实现: https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff 官方实现: https://github.com/Rongjiehuang/FastDiff Vocos 官方实现: https://github.com/gemelo-ai/vocos 模型权重:未提及。 数据集:未提供直接下载链接。使用LibriTTS-R数据集(约585小时,24kHz),具体为 train-clean-100 和 train-clean-360 子集训练,test-clean-100 子集评估。 Demo:https://37integer.github.io/WAVENEXT-2 复现材料:论文详细描述了训练设置(硬件、框架、损失函数、超参数),但未提供可直接下载的配置文件或检查点。 🏗️ 方法概述和架构 WaveNeXt 2是一个统一的生成器框架,旨在通过单一的ConvNeXt基架构,同时支持GAN和扩散两种训练与推断范式。 ...

2026-05-27 · 更新于 2026-06-15 · 3 min · 569 words

Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models

📄 Zero-Shot Parkinson’s Disease Detection from Speech: Comparing Large Audio and Language Models #大语言模型 #低资源 📝 5.2/10 | 后50% | #大语言模型 | #低资源 | arxiv 学术质量 4.5/7 | 影响力 0.7/2 | 可复现性 0/2 | 置信度 高 👥 作者与机构 Muhammad Ashad Kabir^1, Munira Sirajam^2 ^1 School of Computing, Mathematics and Engineering, Charles Sturt University, NSW, Australia ^2 Department of Computer Science, Rensselaer Polytechnic Institute, NY, USA 💡 毒舌点评 这篇论文像一个严谨但略显悲观的探索者,在“零样本”这个热门标签下进行了一场系统的“试错”。它没有试图吹嘘自己发现了新大陆,而是诚实地绘制了当前零样本基础模型在帕金森病语音检测任务上的“能力边界地图”。这幅地图显示,这片区域的“地形”非常崎岖——性能普遍不高,且强烈依赖于具体的“交通工具”(输入模态)和“道路状况”(语言与数据集)。这种诚实本身值得肯定,但对于顶会而言,仅绘制地图而未能提供更强大的“导航工具”(如显著的性能提升或深刻的理论洞见),使得文章的冲击力不足。更让人皱眉的是,作者自己也承认了数据集规模小、未与强监督基线对比等关键缺陷,这无异于主动递上了批评的弹药。结果就是,文章成了一份有用的“避坑指南”和一份详尽的“失败”报告,其价值更多在于警示后续研究者,而非引领一个新的方向。 📌 核心摘要 本文系统性地研究并比较了两种零样本输入模态用于帕金森病(PD)语音检测的性能:(i)将手工提取的71维声学特征序列化为文本,输入通用大语言模型(LLM,此处为LLaMA 3);(ii)将原始音频波形直接输入音频大语言模型(LALM,如Qwen2-Audio, Pengi)及推理增强模型(LARM,即Audio-Reasoner)。研究在四个不同语言(孟加拉语、英语、意大利语、西班牙语)和不同任务(对话、朗读、自发语音)的PD语音数据集上展开。核心发现表明,模型性能高度依赖于输入模态、语音任务和数据集语言。手工声学特征在低资源语言(孟加拉语)数据集(BenSParX)上表现出更稳定的性能(LLaMA 3达到83.3%平衡准确率)。而原始音频输入在部分数据集(如MDVR-KCL, NeuroVoz)上能带来性能提升,但结果波动更大,校准度更差。整体而言,所有零样本模型的最佳平衡准确率仅在50%-70%之间,远未达到临床实用水平。研究揭示了输入模态选择对零样本PD检测性能、鲁棒性和校准度的影响,为低资源临床语音分析提供了实践参考。 ...

2026-05-27 · 更新于 2026-06-15 · 3 min · 500 words

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分 前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分 前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分 前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分 前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分 前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分 前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分 前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分 前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分 前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分 前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分 前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分 前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分 前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分 前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分 前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分 前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分 前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分 前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分 前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分 前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分 前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分 前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分 前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分 前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分 前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分 前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分 前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分 前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分 前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分 前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分 前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分 前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分 前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分 前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分 前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分 后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分 后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分 前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分 后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

2026-05-27 · 更新于 2026-06-15 · 19 min · 3918 words

Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization

📄 Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization #模型融合 #多模态模型 #低资源 📝 5.5/10 | 前50% | #语音增强 | #模型融合 | #多模态模型 #低资源 | arxiv 学术质量 3.0/7 | 影响力 3.0/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者: Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi 机构: Thaka, Advanced AI and Information Technology, Riyadh, Saudi Arabia 论文未提供作者主页、所属部门、资助信息或机构主页。 💡 毒舌点评 这篇论文是一篇典型的竞赛系统描述(“winning system description”),其核心价值在于工程技巧的组合与超参调优,而非提出新的学术思想或模型架构。作者诚实地将工作定位为在现有CATT-Whisper架构上,通过“正则化”这一“优化策略”来最大化有限数据下的性能。这本身没有错,但论文的学术贡献相当有限。创新性仅体现在将R-Drop、Focal Loss、Optuna调优和MC Dropout集成等已有技术“打包”应用到一个特定竞赛任务上,并报告了最优结果。技术细节描述尚可,但缺乏深度分析:消融实验仅做了累积添加,未真正分离每个正则化组件的独立贡献;对MC Dropout推理成本(200次前向传播)的讨论一笔带过,未提出任何效率优化方案。整体而言,这是一篇合格的“how we won”的竞赛报告,但作为一篇研究论文,其深度和启发性不足以在顶级会议中脱颖而出。 📌 核心摘要 本文描述了在KSAA-2026共享任务“阿拉伯语语音听写与自动消音化”Task 2中获胜的系统。任务要求在仅有2,327个训练样本且不允许使用外部数据的条件下,从语音音频和未加消音符的文本生成完全消音化的阿拉伯语文本。系统基于CATT-Whisper多模态模型进行微调,该模型结合了预训练的CATT文本编码器和冻结的Whisper语音编码器。工作的关键在于通过训练正则化(R-Drop一致性正则化、Optuna优化的超参数与高权重衰减、Focal Loss)来充分利用有限数据。在推理阶段,使用蒙特卡洛Dropout在四个模型检查点上进行200次随机前向传播,并在softmax概率层面进行平均。系统在主要排行榜指标(WER,含词尾,包含无消音符位置)上达到23.26%,在所有参与者中排名第一。 ...

2026-05-26 · 更新于 2026-06-15 · 2 min · 323 words

Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control #语音合成 #数据增强 #低资源 📝 5.0/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv 学术质量 5.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文作者为 Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。论文正文中未明确标注作者单位。论文末尾的致谢部分提及了来自 JSPS KAKENHI 和 JST NEXUS 的资助,表明研究可能与日本的学术机构或项目有关,但论文本身未明确说明具体隶属机构。 💡 毒舌点评 这篇论文就像一个精心包装的“数据标注方案说明书”。它为情感TTS中一个被忽视但重要的问题——非言语表达的控制——提出了一个不错的创意。然而,除了这个数据标注“新瓶装旧酒”的点子外,技术贡献乏善可陈。模型是现成的Grad-TTS,加了个情感编码器;实验规模小得可怜(15人的主观评估),还缺乏统计检验,说服力大打折扣。最让人皱眉的是,用一个数据质量存疑、只包含两种情绪的NVTTS作为“粗粒度”基线来衬托自己的“细粒度”,这种对比公平吗?论文在宣称“显著提升表现力”的同时,却轻描淡写自然度的下降和愤怒情绪上的无力,这种选择性报告结果的做法,让“顶会”水准大打折扣。代码和数据集都没开源,复现?自己看着办吧。 📌 核心摘要 当前情感TTS系统主要控制语言韵律,却忽略了对传达情感至关重要的非言语声音(如笑声、哭声)。本文针对现有非言语数据集缺乏细粒度标注的问题,提出了一种新的细粒度非言语表达合成方法。作者从EARS语料库中筛选并处理了女性的非言语片段,设计了一套使用特殊标签(如 <(crying) wuuuuu whep>)来编码非言语类型、频率和持续时间的标注方案。基于Grad-TTS模型,作者添加了情感编码器,并设计了专用的文本处理管线来解析这些细粒度标签,构建了一个情感TTS基准系统。实验表明,该方法在提升情感表现力(eMOS 4.20)和情感识别准确率(平均78.8%)方面优于仅语言基线和粗粒度非言语基线,但代价是轻微的感知自然度下降。细粒度控制在悲伤(98.3%)、快乐(82.5%)和恐惧(82.7%)情绪上效果显著,但在愤怒情绪(64.3%)上提升有限。偏好测试显示,对于快乐情绪,欢呼声比笑声更受青睐;对于悲伤情绪,复杂的多部分哭泣声更受欢迎。 🔗 开源详情 代码:未提供代码仓库链接。 模型权重:未提供。 数据集:未提供处理后的“Fine-Grained Non-Verbal Expression Data”数据集下载链接。原始音频来源于公开的EARS语料库,但作者处理后的版本未公开。用于对比的NVTTS语料库也未提供链接。 Demo:提供了演示页面 https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/ 复现材料:论文提及了训练设置(400k迭代、A6000 GPU)、声学特征(80维梅尔频谱图)和声码器(Hifi-GAN),但未提供完整的模型配置、检查点或详细的复现指南。 论文中引用的开源项目:Whisper, pydub, Hifi-GAN, Grad-TTS (引用论文), CosyVoice2 (引用论文,未提供链接)。 🏗️ 方法概述和架构 本文方法的核心在于为情感TTS构建并利用一套新的细粒度非言语表达数据,而非在模型架构上进行根本性创新。整体框架基于一个现成的情感TTS模型,并为其定制了一条专门的非言语文本处理管线。 ...

2026-05-26 · 更新于 2026-06-15 · 2 min · 287 words

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分 前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分 前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分 前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分 前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分 前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分 前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分 前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分 前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分 前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分 前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分 前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分 前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分 前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分 前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分 前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分 前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分 前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分 前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分 前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分 前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分 前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分 前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分 后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分 前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分 前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分 前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分 后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

2026-05-26 · 更新于 2026-06-15 · 13 min · 2671 words

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

📄 Convex Low-resource Accent-Robust Language Detection in Speech Recognition #语音识别 #低资源 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #凸优化 | #低资源 #鲁棒性 | arxiv 学术质量 4.8/7 | 影响力 1.2/2 | 可复现性 1.5/2 | 置信度 8.5 👥 作者与机构 论文作者为Miria Feng, William Tan, Mert Pilanci。根据论文内容和致谢信息推断,作者主要来自斯坦福大学(Miria Feng受Stanford Graduate Fellowship支持)。机构未在论文标题页明确列出,但基于上下文可合理推断。 💡 毒舌点评 这篇论文解决了一个真实且重要的问题:在低资源、多方言场景下,ASR系统因语言识别错误而导致的转录级联失败。它提出的CLD框架,将凸优化理论应用于语音特征上的检测头,想法新颖,且在特定低资源设定下展现了惊人的样本效率和稳定性(如100样本下仍能保持高精度)。理论部分提供了基于变分范数的鲁棒性证书,虽然形式严谨,但其实际意义高度依赖于一个可能过于悲观的编码器Lipschitz常数。实验设计在低资源消融上做得不错,但存在明显短板:1)作为核心卖点的“方言鲁棒性”,其多类别实验中训练样本分布过于均衡(每方言仅~66样本),与真实世界数据分布(长尾)严重脱节;2)人类评估部分样本极小,仅作“例证”,统计意义薄弱,难以支撑“提升用户体验”的结论;3)与更大规模基线模型(如Whisper-Large-v3, MMS-1B)的对比,更多显示了检测头插入的增益,但未能充分证明CLD相比在这些大模型上进行简单微调(Fine-tuning)的优势。开源了代码是优点,但关键数据集(NCS, Lahaja)未公开,可复现性打折。 📌 核心摘要 本文提出了凸语言检测(CLD)框架,用于在自动语音识别(ASR)系统中进行鲁棒的语言识别,尤其针对低资源和多方言场景。该方法在从ASR编码器(如Whisper)提取的隐藏特征上,训练一个基于凸优化重构的两层ReLU网络检测头,采用交替方向乘子法(ADMM)在JAX中高效求解。理论分析证明了CLD检测头的分类边距稳定性,并提供了针对隐藏特征扰动的可认证鲁棒性保证。实验表明,在低至100个样本的训练设定下,CLD在语言检测准确率和降低词错误率(WER)方面显著优于传统的神经网络、支持向量机等基线方法,并在多语言多方言数据集上展示了强大的样本效率和对输入方言变化的鲁棒性。 🔗 开源详情 代码:是。提供了GitHub仓库:https://github.com/pilancilab/CLD。 模型权重:论文中未提及提供预训练模型权重。 数据集:论文提及了三个数据集,但未提供统一的公开下载链接。 Common Voice (v23):作为主要转录数据来源,需访问Mozilla Common Voice官方网站申请。 National Speech Corpus (NCS):新加坡英语语料库,通过新加坡资讯通信媒体发展局获得访问权限,论文未提供公开链接。 Lahaja 数据集:用于印地语的12.5小时语音数据,论文未提供公开链接。 Demo:论文中未提及提供在线演示。 复现材料:论文在附录G中提供了详细的硬件设置(4块NVIDIA A100-SXM4 GPU)以及所有基线模型(NN, SVM, KNN)和CLD模型(包括默认超参数)的配置信息。 论文中引用的开源项目: JAX:Google开发的高性能数值计算库。链接:https://github.com/google/jax。 Whisper:OpenAI开发的开源语音识别模型。链接:https://github.com/openai/whisper。 Common Voice:由Mozilla基金会发起的开源语音数据集项目。链接:https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 CLD是一个模块化的、轻量级的检测头框架,可无缝插入现有的编码器-解码器ASR管道(如Whisper)。其核心思想是将语言检测任务建模为一个在ASR编码器输出特征上的凸优化问题。 ...

2026-05-25 · 更新于 2026-06-15 · 3 min · 452 words

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(19 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分 前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分 前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分 前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分 前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分 前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分 前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分 前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分 前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分 前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分 前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分 前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分 前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分 前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分 前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分 后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分 后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分 后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分 后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

2026-05-25 · 更新于 2026-06-15 · 9 min · 1773 words

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

📄 Convex Low-resource Accent-Robust Language Detection in Speech Recognition #** #凸优化 #语音识别 #语言检测 #低资源 #口音鲁棒性 #ADMM ✅ 7.5/10 | 前25% | #** | #凸优化 | #语音识别 #语言检测 | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-15 · 1 min · 33 words

Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning

📄 Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning #音频编码 #强化学习 #语音质量评估 #低资源 ✅ 6.5/10 | 前50% | #音频编码 | #强化学习 | #语音质量评估 #低资源 | arxiv 学术质量 4.6/7 | 影响力 1.1/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 第一作者:Junyi Wang(清华大学) 通讯作者:未说明 作者列表:Junyi Wang(清华大学),Chi Zhang(清华大学),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司),Zengrui Jin(清华大学),Chao Zhang(清华大学) 💡 毒舌点评 这篇论文针对极低比特率(300bps)下语音可懂度优先的特定场景,提出了一个两阶段(重建预训练+强化学习微调)的神经编解码器ClariCodec。其核心创新在于将离散量化过程重构为可微的随机策略,并使用WER作为奖励信号进行直接优化,这确实是领域内一个新颖的尝试。实验结果在LibriSpeech干净集上也显示出了一定的可懂度提升。然而,其整体影响力受到严重限制:1)评估场景极其单一,仅在一个干净、特定的语音数据集上验证,未能证明在真实噪声信道或不同语言、说话人下的有效性;2)与基线模型的对比存在显著不公平性,未深入讨论模型规模、训练数据量的巨大差异(如StableCodec-400参数量是其3倍多);3)核心创新“首次应用RL”缺乏足够的方法论深度分析和广泛的实验验证;4)未开源代码和模型,严重影响复现与验证。整体上,这更像是一项针对特定约束条件的初步方法论探索,离成为该领域的“里程碑”还有相当距离。 📌 核心摘要 要解决什么问题:在卫星/水下通信等极端带宽受限场景(如300bps),传统神经语音编解码器基于波形重建的训练目标会导致比特分配偏向感知细节,牺牲关键的语音可懂度。 方法核心是什么:提出ClariCodec,一个两阶段训练框架。第一阶段使用改进的有限标量量化(iFSQ)和传统重建损失进行预训练。第二阶段核心创新是将量化过程随机化(Stochastic Residual Quantization),使其成为可微的策略,然后冻结解码器和声码器,仅使用强化学习(GRPO)和基于预训练ASR模型的WER奖励信号来微调编码器,以直接优化语音可懂度。 与已有方法相比新在哪里:与主要依赖自监督学习、ASR或语言模型表示的语义编解码器,或专注于感知质量的编解码器不同,本工作首次将语音编解码器的量化决策建模为随机策略,并应用强化学习直接优化非可微的WER指标。这是一个旨在更根本地对齐比特分配与语义信息的新颖训练范式。 主要实验结果如何:在LibriSpeech上,ClariCodec在300bps下实现了3.55%的test-clean WER(相对基线4.64%降低23.5%),优于更高比特率(如400bps)的StableCodec-400(4.88%)。其声学质量指标(PESQ 1.87, UTMOS 4.16)与部分更高比特率模型相当。消融实验证实了结合RL损失与mel重建损失对平衡可懂度与感知质量的重要性。 实际意义是什么:为极低比特率、对可懂度要求严苛的通信场景(如应急通信、深海/太空探索)提供了一种新的技术思路,通过将语言理解模型(ASR)的监督信号引入编解码器训练,实现了语义优先的压缩。 主要局限性是什么:评估数据集单一(仅LibriSpeech),缺乏对真实噪声信道、不同语言或说话人的测试;模型为非因果架构,无法直接用于需要低延迟的实时通信;未提供完整开源代码和预训练模型,限制了研究的可复现性和快速验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及 ClariCodec 模型权重的发布链接。 数据集: 训练数据集:使用了 Libriheavy 的一个 50,000 小时子集。论文中未提供数据集获取链接。 评估数据集:使用了 LibriSpeech 的 test-clean 和 test-other 子集。LibriSpeech 是一个开源数据集,通常可通过 https://www.openslr.org/12/ 获取。 Demo:音频样本演示地址为:https://demo941.github.io/ClariCodec/ 复现材料:论文详细提供了训练配置,包括: Stage 1 (重建预训练):在 8 张 NVIDIA H200 GPU 上训练 500k 步,批量大小为 64,音频随机裁剪至约 4 秒。损失系数为:λ_rec=15, λ_adv=1, λ_fm=1, λ_mrd=0.2。 Stage 2 (RL微调):在 8 张 NVIDIA H200 GPU 上训练 100k 步,批量大小为 8,GRPO 组大小为 16,音频裁剪至约 5.1 秒。损失系数为:λ_RL=10, λ_mel=1。 优化器与学习率:使用 AdamW 优化器 (β1=0.8, β2=0.9),采用 one-cycle 学习率调度(前 5% 步数为余弦预热,之后余弦衰减)。Stage 1 峰值学习率为 1e-3,Stage 2 为 1e-5。 论文未提供预训练模型检查点的下载链接,也未提及训练数据集的具体下载方式。 论文中引用的开源项目: Hybrid FastConformer TDT-CTC (ASR 模型):用于计算 WER。 链接:https://huggingface.co/nvidia/parakeet-tdt_ctc-1.1b WavLM 说话人验证模型:用于计算说话人相似度 (SIM)。 链接:https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification EnCodec:基线模型,论文使用其第一层 RVQ 达到 750 bps。 论文中未提及具体代码或权重链接。 Vocos:作为声码器 (vocoder) 从头训练并联合优化。 论文中未提及具体代码链接。 其他基线模型 (StableCodec, FlexiCodec, SAC, WavTokenizer, SoCodec, SemantiCodec, LSCodec): 论文中未提及这些模型的具体代码或权重链接,仅说明使用了它们的官方检查点进行评估。 GRPO (Group Relative Policy Optimization):用于 RL 训练。 论文中未提及该方法的具体代码仓库链接。 🏗️ 方法概述和架构 整体流程概述:ClariCodec是一个端到端的神经语音编解码器,采用两阶段训练策略。第一阶段(Stage 1)使用传统的重建目标进行端到端预训练,学习基本的语音压缩与重建能力。第二阶段(Stage 2)冻结除编码器外的所有组件,将编码器建模为一个生成量化token的随机策略,并使用强化学习(RL)直接以单词错误率(WER)为奖励信号对其进行微调,从而优化语音可懂度。 ...

2026-05-21 · 更新于 2026-06-15 · 4 min · 643 words