低资源 | 语音/音乐/音频论文速递

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis

📄 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis #语音合成 #语音生成 #自回归模型 #生成对抗网络 #数据增强 #低资源 #多任务学习 #语音克隆 🔥 9.2/10 | 前25% | #语音合成 | #生成对抗网络 | #语音生成 #自回归模型 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu 机构：高德（Amap, Alibaba Group）；香港中文大学（深圳） ...

Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization

📄 Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization #语音识别 #多模态模型 #低资源 ✅ 6.0/10 | 前50% | #语音识别 | #多模态模型 | #低资源 | arxiv 学术质量 6.0/7 | 影响力 6.5/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构作者：Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi 机构：Thaka, Advanced AI and Information Technology (Riyadh, Saudi Arabia) 💡 毒舌点评这篇论文本质上是一份“调参报告”加上一个“集成技巧展示”。其核心论点——“在低资源下，正则化比架构重要”——是正确的，但也是相当可预期的。论文的亮点在于严谨地实施并报告了这些策略，使其成为了一个获胜系统，但这更多地体现了工程上的细致和对现有技术的熟练运用，而非方法论上的突破。论文声称其系统排名第一，但缺乏与最强竞争系统的详细技术对比（除了数字）。消融实验虽然存在，但不够深入，无法让我们真正理解每个组件的独立贡献。最大的遗憾是缺乏开源，这对于一篇以“技术分享”为名的竞赛论文来说是致命的缺点。 📌 核心摘要本文介绍了KSAA-2026共享任务（Task 2：阿拉伯语音转写与自动音标）的获胜系统。该任务仅提供2,327个训练样本且不允许使用外部数据，是一个典型的低资源场景。作者的系统对CATT-Whisper多模态架构（结合文本编码器CATT和冻结的语音编码器Whisper）进行微调。其核心贡献在于强调并系统化地应用了训练时的正则化策略：R-Drop一致性正则化、Optuna优化的超参数（包括高权重衰减）、以及Focal Loss。在推理阶段，他们使用基于Monte Carlo Dropout的集成方法：4个不同检查点（3个不同种子，1个不同配置）各进行50次随机前向传播，平均200次softmax概率。该系统在测试集上取得了23.26%的WER（带词尾音标，包含无声调位置），在所有参赛系统中排名第一。论文通过累积消融实验证明，正则化训练策略（带来3.25个百分点的WER下降）是性能提升的主要驱动力，而推理集成进一步贡献了1.16个百分点。 🔗 开源详情代码：论文未提供代码链接。致谢中提到“Abjad AI团队开源CATT-Whisper模型”，但未提供其代码仓库的URL。模型权重：论文未提供训练好的模型检查点文件或HuggingFace/ModelScope等平台的链接。仅提到CATT-Whisper由Abjad AI团队开源，但同样未给出具体链接。数据集：论文未提供KSAA-2026共享任务数据集的获取链接。 Demo：论文未提及。复现材料：论文提供了详细的训练配置信息（表1），包括所有关键超参数（学习率、R-Drop \(\alpha\)、Focal \(\gamma\)、权重衰减等）和训练策略（Optuna优化、多检查点训练、MC Dropout集成细节）。理论上，拥有数据集和基础代码的读者可以依据此信息复现实验。然而，由于缺少代码和模型，实际复现难度很高。论文中引用的开源项目： CATT-Whisper: 由Abjad AI团队开源，论文未提供具体仓库链接。引用了其原始论文 (Ghannam et al., 2025)。 Optuna: 超参数优化框架。链接：https://github.com/optuna/optuna （论文引用了其2019年论文）。 SpecAugment: 数据增强方法。论文引用了其2019年论文，未提供工具链接。 Focal Loss: 论文中使用的损失函数。论文引用了其2017年论文，未提供代码链接。 R-Drop: 正则化技术。论文引用了其2021年论文，未提供代码链接。 Whisper: OpenAI的语音识别模型。论文未提供链接，但论文引用了其2023年论文。 AraBERT: 阿拉伯语预训练模型。论文未提供链接，但论文引用了其2020年论文。 CATT: 字符级阿拉伯语模型。论文未提供链接，但论文引用了其2024年论文。 🏗️ 方法概述和架构本系统构建于CATT-Whisper多模态架构之上。其核心思想是将阿拉伯语文本信息与语音音频信息进行融合，以解决纯文本模型在音标标注任务上的歧义性问题。 ...

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #扩散模型 #低资源 🔥 8.5/10 | 前25% | #语音合成 | #生成对抗网络 | #扩散模型 #低资源 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构未提及。 💡 毒舌点评这篇论文在工程实用性和架构统一性上做得不错，但部分宣传和分析需要更审慎。声称“首次”统一框架，但框架本身的核心（残差去噪、子模型）并非原创，主要贡献在于将ConvNeXt生成器成功适配到两种范式并进行了充分的实证对比。其提出的“简化”GAN训练策略（无需初始噪声和增益调整）的理论依据和泛化能力存疑，更像是一种经验性的工程trick。子模型导致参数线性增长是一个显著的实用缺陷，作者虽提及但轻描淡写，这对资源敏感的部署场景影响很大。论文将“多说话人性能提升”作为重要卖点，但除了展示在LibriTTS-R上的结果，并未深入分析其机制（如说话人嵌入、归一化技术的改进），显得结论有余而洞察不足。总体而言，这是一篇扎实的系统性工作，但距离开创性研究尚有差距。 📌 核心摘要本文提出了WaveNeXt 2，一个基于ConvNeXt的统一生成器框架，可同时应用于GAN和扩散模型两种神经声码器。其核心创新在于引入了残差去噪和子模型结构，使生成器能够以迭代方式从噪声中逐步恢复波形。在多说话人数据集LibriTTS-R上的实验表明：(1) GAN-WaveNeXt 2在保持与WaveFit、HiFi-GAN相当合成质量的同时，实现了GPU上70%、CPU上高达90%的推理速度提升；(2) 扩散模型版本Diff-WaveNeXt 2在4步推理下，CPU推理速度比FastDiff快80%，并取得了有竞争力的合成质量；(3) Diff-WaveNeXt 2的训练效率极高，仅需32小时。该框架为不同应用场景（快速部署或高质量合成）提供了灵活的选择。 🔗 开源详情代码：论文未提供WaveNeXt 2自身的官方代码、模型权重或训练脚本链接。但提供了其复现所依赖的第三方开源项目链接： ParallelWaveGAN (HiFi-GAN V1 非官方实现): https://github.com/kan-bayashi/ParallelWaveGAN WaveFit 非官方实现: https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff 官方实现: https://github.com/Rongjiehuang/FastDiff Vocos 官方实现: https://github.com/gemelo-ai/vocos 模型权重：未提及。数据集：未提供直接下载链接。使用LibriTTS-R数据集（约585小时，24kHz），具体为 train-clean-100 和 train-clean-360 子集训练，test-clean-100 子集评估。 Demo：https://37integer.github.io/WAVENEXT-2 复现材料：论文详细描述了训练设置（硬件、框架、损失函数、超参数），但未提供可直接下载的配置文件或检查点。 🏗️ 方法概述和架构 WaveNeXt 2是一个统一的生成器框架，旨在通过单一的ConvNeXt基架构，同时支持GAN和扩散两种训练与推断范式。 ...

Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models

📄 Zero-Shot Parkinson’s Disease Detection from Speech: Comparing Large Audio and Language Models #大语言模型 #低资源 📝 5.2/10 | 后50% | #大语言模型 | #低资源 | arxiv 学术质量 4.5/7 | 影响力 0.7/2 | 可复现性 0/2 | 置信度高 👥 作者与机构 Muhammad Ashad Kabir^1, Munira Sirajam^2 ^1 School of Computing, Mathematics and Engineering, Charles Sturt University, NSW, Australia ^2 Department of Computer Science, Rensselaer Polytechnic Institute, NY, USA 💡 毒舌点评这篇论文像一个严谨但略显悲观的探索者，在“零样本”这个热门标签下进行了一场系统的“试错”。它没有试图吹嘘自己发现了新大陆，而是诚实地绘制了当前零样本基础模型在帕金森病语音检测任务上的“能力边界地图”。这幅地图显示，这片区域的“地形”非常崎岖——性能普遍不高，且强烈依赖于具体的“交通工具”（输入模态）和“道路状况”（语言与数据集）。这种诚实本身值得肯定，但对于顶会而言，仅绘制地图而未能提供更强大的“导航工具”（如显著的性能提升或深刻的理论洞见），使得文章的冲击力不足。更让人皱眉的是，作者自己也承认了数据集规模小、未与强监督基线对比等关键缺陷，这无异于主动递上了批评的弹药。结果就是，文章成了一份有用的“避坑指南”和一份详尽的“失败”报告，其价值更多在于警示后续研究者，而非引领一个新的方向。 📌 核心摘要本文系统性地研究并比较了两种零样本输入模态用于帕金森病（PD）语音检测的性能：（i）将手工提取的71维声学特征序列化为文本，输入通用大语言模型（LLM，此处为LLaMA 3）；（ii）将原始音频波形直接输入音频大语言模型（LALM，如Qwen2-Audio, Pengi）及推理增强模型（LARM，即Audio-Reasoner）。研究在四个不同语言（孟加拉语、英语、意大利语、西班牙语）和不同任务（对话、朗读、自发语音）的PD语音数据集上展开。核心发现表明，模型性能高度依赖于输入模态、语音任务和数据集语言。手工声学特征在低资源语言（孟加拉语）数据集（BenSParX）上表现出更稳定的性能（LLaMA 3达到83.3%平衡准确率）。而原始音频输入在部分数据集（如MDVR-KCL, NeuroVoz）上能带来性能提升，但结果波动更大，校准度更差。整体而言，所有零样本模型的最佳平衡准确率仅在50%-70%之间，远未达到临床实用水平。研究揭示了输入模态选择对零样本PD检测性能、鲁棒性和校准度的影响，为低资源临床语音分析提供了实践参考。 ...

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization

📄 Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization #模型融合 #多模态模型 #低资源 📝 5.5/10 | 前50% | #语音增强 | #模型融合 | #多模态模型 #低资源 | arxiv 学术质量 3.0/7 | 影响力 3.0/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构作者: Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi 机构: Thaka, Advanced AI and Information Technology, Riyadh, Saudi Arabia 论文未提供作者主页、所属部门、资助信息或机构主页。 💡 毒舌点评这篇论文是一篇典型的竞赛系统描述（“winning system description”），其核心价值在于工程技巧的组合与超参调优，而非提出新的学术思想或模型架构。作者诚实地将工作定位为在现有CATT-Whisper架构上，通过“正则化”这一“优化策略”来最大化有限数据下的性能。这本身没有错，但论文的学术贡献相当有限。创新性仅体现在将R-Drop、Focal Loss、Optuna调优和MC Dropout集成等已有技术“打包”应用到一个特定竞赛任务上，并报告了最优结果。技术细节描述尚可，但缺乏深度分析：消融实验仅做了累积添加，未真正分离每个正则化组件的独立贡献；对MC Dropout推理成本（200次前向传播）的讨论一笔带过，未提出任何效率优化方案。整体而言，这是一篇合格的“how we won”的竞赛报告，但作为一篇研究论文，其深度和启发性不足以在顶级会议中脱颖而出。 📌 核心摘要本文描述了在KSAA-2026共享任务“阿拉伯语语音听写与自动消音化”Task 2中获胜的系统。任务要求在仅有2,327个训练样本且不允许使用外部数据的条件下，从语音音频和未加消音符的文本生成完全消音化的阿拉伯语文本。系统基于CATT-Whisper多模态模型进行微调，该模型结合了预训练的CATT文本编码器和冻结的Whisper语音编码器。工作的关键在于通过训练正则化（R-Drop一致性正则化、Optuna优化的超参数与高权重衰减、Focal Loss）来充分利用有限数据。在推理阶段，使用蒙特卡洛Dropout在四个模型检查点上进行200次随机前向传播，并在softmax概率层面进行平均。系统在主要排行榜指标（WER，含词尾，包含无消音符位置）上达到23.26%，在所有参与者中排名第一。 ...

Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control #语音合成 #数据增强 #低资源 📝 5.0/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv 学术质量 5.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构论文作者为 Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。论文正文中未明确标注作者单位。论文末尾的致谢部分提及了来自 JSPS KAKENHI 和 JST NEXUS 的资助，表明研究可能与日本的学术机构或项目有关，但论文本身未明确说明具体隶属机构。 💡 毒舌点评这篇论文就像一个精心包装的“数据标注方案说明书”。它为情感TTS中一个被忽视但重要的问题——非言语表达的控制——提出了一个不错的创意。然而，除了这个数据标注“新瓶装旧酒”的点子外，技术贡献乏善可陈。模型是现成的Grad-TTS，加了个情感编码器；实验规模小得可怜（15人的主观评估），还缺乏统计检验，说服力大打折扣。最让人皱眉的是，用一个数据质量存疑、只包含两种情绪的NVTTS作为“粗粒度”基线来衬托自己的“细粒度”，这种对比公平吗？论文在宣称“显著提升表现力”的同时，却轻描淡写自然度的下降和愤怒情绪上的无力，这种选择性报告结果的做法，让“顶会”水准大打折扣。代码和数据集都没开源，复现？自己看着办吧。 📌 核心摘要当前情感TTS系统主要控制语言韵律，却忽略了对传达情感至关重要的非言语声音（如笑声、哭声）。本文针对现有非言语数据集缺乏细粒度标注的问题，提出了一种新的细粒度非言语表达合成方法。作者从EARS语料库中筛选并处理了女性的非言语片段，设计了一套使用特殊标签（如 <(crying) wuuuuu whep>）来编码非言语类型、频率和持续时间的标注方案。基于Grad-TTS模型，作者添加了情感编码器，并设计了专用的文本处理管线来解析这些细粒度标签，构建了一个情感TTS基准系统。实验表明，该方法在提升情感表现力（eMOS 4.20）和情感识别准确率（平均78.8%）方面优于仅语言基线和粗粒度非言语基线，但代价是轻微的感知自然度下降。细粒度控制在悲伤（98.3%）、快乐（82.5%）和恐惧（82.7%）情绪上效果显著，但在愤怒情绪（64.3%）上提升有限。偏好测试显示，对于快乐情绪，欢呼声比笑声更受青睐；对于悲伤情绪，复杂的多部分哭泣声更受欢迎。 🔗 开源详情代码：未提供代码仓库链接。模型权重：未提供。数据集：未提供处理后的“Fine-Grained Non-Verbal Expression Data”数据集下载链接。原始音频来源于公开的EARS语料库，但作者处理后的版本未公开。用于对比的NVTTS语料库也未提供链接。 Demo：提供了演示页面 https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/ 复现材料：论文提及了训练设置（400k迭代、A6000 GPU）、声学特征（80维梅尔频谱图）和声码器（Hifi-GAN），但未提供完整的模型配置、检查点或详细的复现指南。论文中引用的开源项目：Whisper, pydub, Hifi-GAN, Grad-TTS (引用论文), CosyVoice2 (引用论文，未提供链接)。 🏗️ 方法概述和架构本文方法的核心在于为情感TTS构建并利用一套新的细粒度非言语表达数据，而非在模型架构上进行根本性创新。整体框架基于一个现成的情感TTS模型，并为其定制了一条专门的非言语文本处理管线。 ...

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文评分分档主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

📄 Convex Low-resource Accent-Robust Language Detection in Speech Recognition #语音识别 #低资源 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #凸优化 | #低资源 #鲁棒性 | arxiv 学术质量 4.8/7 | 影响力 1.2/2 | 可复现性 1.5/2 | 置信度 8.5 👥 作者与机构论文作者为Miria Feng, William Tan, Mert Pilanci。根据论文内容和致谢信息推断，作者主要来自斯坦福大学（Miria Feng受Stanford Graduate Fellowship支持）。机构未在论文标题页明确列出，但基于上下文可合理推断。 💡 毒舌点评这篇论文解决了一个真实且重要的问题：在低资源、多方言场景下，ASR系统因语言识别错误而导致的转录级联失败。它提出的CLD框架，将凸优化理论应用于语音特征上的检测头，想法新颖，且在特定低资源设定下展现了惊人的样本效率和稳定性（如100样本下仍能保持高精度）。理论部分提供了基于变分范数的鲁棒性证书，虽然形式严谨，但其实际意义高度依赖于一个可能过于悲观的编码器Lipschitz常数。实验设计在低资源消融上做得不错，但存在明显短板：1）作为核心卖点的“方言鲁棒性”，其多类别实验中训练样本分布过于均衡（每方言仅~66样本），与真实世界数据分布（长尾）严重脱节；2）人类评估部分样本极小，仅作“例证”，统计意义薄弱，难以支撑“提升用户体验”的结论；3）与更大规模基线模型（如Whisper-Large-v3, MMS-1B）的对比，更多显示了检测头插入的增益，但未能充分证明CLD相比在这些大模型上进行简单微调（Fine-tuning）的优势。开源了代码是优点，但关键数据集（NCS, Lahaja）未公开，可复现性打折。 📌 核心摘要本文提出了凸语言检测（CLD）框架，用于在自动语音识别（ASR）系统中进行鲁棒的语言识别，尤其针对低资源和多方言场景。该方法在从ASR编码器（如Whisper）提取的隐藏特征上，训练一个基于凸优化重构的两层ReLU网络检测头，采用交替方向乘子法（ADMM）在JAX中高效求解。理论分析证明了CLD检测头的分类边距稳定性，并提供了针对隐藏特征扰动的可认证鲁棒性保证。实验表明，在低至100个样本的训练设定下，CLD在语言检测准确率和降低词错误率（WER）方面显著优于传统的神经网络、支持向量机等基线方法，并在多语言多方言数据集上展示了强大的样本效率和对输入方言变化的鲁棒性。 🔗 开源详情代码：是。提供了GitHub仓库：https://github.com/pilancilab/CLD。模型权重：论文中未提及提供预训练模型权重。数据集：论文提及了三个数据集，但未提供统一的公开下载链接。 Common Voice (v23)：作为主要转录数据来源，需访问Mozilla Common Voice官方网站申请。 National Speech Corpus (NCS)：新加坡英语语料库，通过新加坡资讯通信媒体发展局获得访问权限，论文未提供公开链接。 Lahaja 数据集：用于印地语的12.5小时语音数据，论文未提供公开链接。 Demo：论文中未提及提供在线演示。复现材料：论文在附录G中提供了详细的硬件设置（4块NVIDIA A100-SXM4 GPU）以及所有基线模型（NN, SVM, KNN）和CLD模型（包括默认超参数）的配置信息。论文中引用的开源项目： JAX：Google开发的高性能数值计算库。链接：https://github.com/google/jax。 Whisper：OpenAI开发的开源语音识别模型。链接：https://github.com/openai/whisper。 Common Voice：由Mozilla基金会发起的开源语音数据集项目。链接：https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 CLD是一个模块化的、轻量级的检测头框架，可无缝插入现有的编码器-解码器ASR管道（如Whisper）。其核心思想是将语言检测任务建模为一个在ASR编码器输出特征上的凸优化问题。 ...

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（19 篇，按分数降序）排名论文评分分档主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...