低资源 | 语音/音乐/音频论文速递

GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark

📄 GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark #语音识别 #语音翻译 #低资源 #口音识别 8.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前50% | #语音识别 | #语音翻译 | #低资源 #口音识别 | arxiv 👥 作者与机构 Yujie Tu1,2,8,9, Yifan Yang1, Tianrui Wang4, Yanqiao Zhu1, Guodong Lin5, Mingchen Shao6, Haoran Wang1, Junzhe Liu1, Yuxiang Fu5, Yizhou Peng7, Changsong Liu7, Peng Wang11, Zhikang Niu1, Yunchong Xiao3, Haolong Zheng10, Xiuwen Zheng10, Xulin Fan10, Wei-Qiang Zhang5,16, Lei Xie6,15, Longbiao Wang4, Eng-Siong Chng7, Jiajun Zhang8,9, Kele Xu13, Jianwei Yu3, Binbin Zhang3,15, Jiayu Du16, Wupeng Wang3, Zhigao Chen3, Yunlong Wu3, Guoguo Chen14,16, Xipeng Qiu2,12, Mark Hasegawa-Johnson10, Kai Yu1, Zhifu Gao3, Xiangang Li3, Xie Chen1,2,16 机构: 1.SJTU, 2.SII, 3.Alibaba, 4.TJU, 5.THU, 6.ASLP@NPU, 7.NTU, 8.CASIA, 9.UCAS, 10.UIUC, 11.CUHK-SZ, 12.FDU, 13.CCSE, 14.Seasalt.ai, 15.WeNet, 16.SpeechColab ...

wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2

📄 wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2 #自监督学习 #低资源 #迁移学习 8.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 1.5/1.5 | 开源 0.9/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #低资源 #迁移学习 | arxiv 👥 作者与机构 James Tanner (1,2), Morgan Sonderegger (2), Jane Stuart-Smith (1), Tyler Kendall (3), Jeff Mielke (4) 1 University of Glasgow, United Kingdom 2 McGill University, Canada 3 University of Oregon, United States 4 North Carolina State University, United States ...

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings

📄 Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings #语音增强 #自监督学习 #低资源 #数据增强 6.8/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.8/10 | 前50% | #语音增强 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构论文作者来自University of Texas at Dallas (UTDallas)，由J.H.L. Hansen教授支持。 💡 毒舌点评这篇论文的“首次”宣称需要打折扣。虽然WavLM用于语音努力分类确实是新尝试，但整体架构是标准的微调预训练模型加数据增强和损失函数改进，创新点更多是工程上的组合与验证，而非方法论上的根本突破。论文最大的问题在于实验规模过小：仅在单一、非校准的AVID数据集（约1万条样本）上进行验证，这使得“新SOTA”的宣称说服力有限，模型在更复杂、更真实场景下的泛化能力完全未知。作者提出的“高斯邻居软标签”听起来很新颖，但其核心思想（建模标签连续性）与已有的标签平滑、序数回归等方法思想相通，论文未能充分论证其相比这些成熟方法的显著优势。此外，论文开源信息为零，极大阻碍了科学验证和后续研究。整体而言，这是一篇扎实的“应用性”工作，但距离顶会所要求的“开创性”贡献还有明显差距。 📌 核心摘要本文首次将WavLM自监督模型应用于自然的非校准语音录音的语音努力分类任务。通过系统性地研究和结合多种波形级数据增强策略（如RIR卷积、噪声添加、时间掩码、速度扰动、限带）以及混合级增强（MixUp， CutMix），并创新性地提出高斯邻居软标签以建模语音努力的连续性，有效缓解了标注数据稀缺和相邻类别混淆的问题。在AVID语料库的10折交叉验证中，最佳系统（WavLM-BASE + 渐进式解冻 + MixUp + 高斯邻居软标签）达到了78.22%的平均准确率，相较于之前的基线方法有所提升。 ...

语音/音乐/音频论文速递 2026-06-29

语音/音乐/音频论文速递 2026-06-29 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音合成 2篇 ██ #说话人识别 2篇 ██ #语音质量评估 1篇 █ #数据增强 1篇 █ #语音情感识别 1篇 █ #多模态模型 1篇 █ #语音增强 1篇 █ 📊 论文评分排行榜（16 篇，按分数降序）排名论文总分分档主任务 🥇 Screening Matters: A Comparative Study of Conventional 8.4分前25% #语音质量评估 🥈 From General-Purpose Audio Tagging to Spatially Grounde 8.3分前50% #数据增强 🥉 HPRO: Hierarchical Progressive Reward Optimization via 8.2分前50% #语音合成 4. Learning from Annotation Uncertainty: Entropy-Aware Cur 7.4分前50% #语音情感识别 5. MER-R1: Multimodal Emotion Reasoning via Slow-Fast Thin 7.4分前25% #多模态模型 6. A Comparison of Fusion Techniques for Multi-Modal Human 7.3分前50% - 7. Do Speech Emphasis Models Generalize across Languages a 7.0分前25% #语音识别 8. Advancing Speaker-Based Vocal Effort Classification wit 6.8分前50% #语音增强 9. HybridCodec: Modeling Discrete and Continuous Represent 6.5分前50% #语音合成 10. Grammar-Guided Hierarchical Parsing for Long-form Audio 6.2分前50% #音频事件检测 11. Room for Error: Large-Scale Simulation of Over-the-Air 6.2分前50% #语音识别 12. What Was That Again? Certified Robustness for Automatic 6.2分前50% - 13. Dialogue to Detection: A Multimodal Hybrid NLP Pipeline 6.0分后50% #说话人识别 14. From Black-Box to Clinical Insight: A Multi-Stage Expla 6.0分前50% #语音识别 15. DG^VoiC: Speaker Clustering for Fraud Investigation und 5.7分前50% #说话人识别 16. A Survey of Automated Presentation Coaching: Systems, M 5.4分后50% #语音识别 📋 论文列表 🥇 Screening Matters: A Comparative Study of Conventional and Crowdsourced Listening Tests 8.4/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

📄 Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean #语音合成 #参数高效微调 #低资源 #扩散模型 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6/10 | 后50% | #语音合成 | #参数高效微调 | #低资源 #扩散模型 | arxiv 👥 作者与机构 Phannet Pov, Sovandara Chhoun, Hyun Woo Park, Wan-Sup Cho, Saksonita Khoeurn 机构：柬埔寨数字研究与创新研究所、韩国相关机构（论文未明确列出具体机构全称） ...

Low Resource Multimodal Translation of Nepali Spoken Words into Emotion-Conditioned Sign Language Avatars

📄 Low Resource Multimodal Translation of Nepali Spoken Words into Emotion-Conditioned Sign Language Avatars #语音识别 #低资源 #数据增强 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 📝 5.3/10 | 后50% | #语音识别 | #数据增强 | #低资源 | arxiv 👥 作者与机构作者：Jatin Bhusal, Salma Tamang 机构：Center for Human Mobility and Communications, Prateek Innovations, Kathmandu, Nepal; Sunway International Business School, Birmingham City University, Kathmandu, Nepal ...

Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech

📄 Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech #多语言 #低资源 #语音分离 5.5/10 | 创新 1.0/2 | 严谨 0.8/1.5 | 实验 1.0/1.5 | 清晰 1.2/1 | 影响 0.5/1.5 | 开源 0.0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 5.5/10 | 前50% | #语音分离 | #多语言 | #低资源 | arxiv 👥 作者与机构作者：Samip Neupane, Sandesh Pokhrel, Sandesh Pyakurel, Basanta Joshi 机构：尼泊尔理工学院普尔乔克校区电子与计算机工程系 💡 毒舌点评这篇论文的出发点（低资源语言日志化）是好的，但执行上槽点不少。把两个现成模型（EEND-EDA和DiaPer）在合成数据上跑一遍比较，就算“研究”了吗？所谓的“多语言训练”更像是把几堆数据混合在一起，并没有提出新颖的融合策略或理论分析。实验设计最大的硬伤是使用合成数据——把单人录音拼接起来，这能模拟真实对话中复杂的重叠、打断、背景噪声吗？评估数据集NeHi样本量小（每种场景仅100条），且尼泊尔语训练数据仅来自18名女性，这个偏差太大了，结论能推广吗？论文声称DiaPer优于EEND-EDA，但对比分析相当肤浅，没有深入探究Perceiver架构在跨语言泛化上真正优势的来源（比如注意力机制如何处理不同语言的声学特征）。此外，图表标题与内容对应混乱（表4-7），写作粗糙。整体感觉像是一篇急匆匆的实验报告，而非一篇扎实、有深度的顶会论文。 📌 核心摘要论文针对低资源语言（尼泊尔语、印地语）说话人日志化性能下降的问题，提出使用多语言混合数据训练端到端神经日志化模型。比较了EEND-EDA和DiaPer两种架构。核心结论是DiaPer在多数多说话人场景（尤其是3、4及混合说话人）的DER显著低于EEND-EDA，显示出更好的跨语言泛化能力，而EEND-EDA在简单的2说话人场景略有优势。实验在合成的尼泊尔语-印地语（NeHi）测试集上进行，结果支持DiaPer在复杂场景的优越性。 🔗 开源详情代码：论文中未提及代码链接，未开源。 ...

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文总分分档主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

CrossAccent-TTS: Cross-Lingual Accent-Intensity Controllable Text-to-Speech via Disentangled Speaker and Accent Representations

📄 CrossAccent-TTS: Cross-Lingual Accent-Intensity Controllable Text-to-Speech via Disentangled Speaker and Accent Representations #语音合成 #低资源 #数据增强 5.5/10 | 创新 1.0/2 | 严谨 1.0/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.6/0.5 | 工程 0.6/1.5 📝 5.5/10 | 前50% | #语音合成 | #数据增强 | #低资源 | arxiv 👥 作者与机构 Ram Annamdevula, Ankit Tatawat, Ashishkumar Gudmalwar, Nirmesh Shah, Pankaj Wasnik Media Analysis, Sony Research India 💡 毒舌点评这篇论文试图解决一个实际且重要的问题——跨语言、口音强度可控的语音合成，尤其是在低资源印度语言场景。它像一个不错的工程项目集成报告：Neucodec做编码，Qwen大模型做解码，用Perceiver Resampler和梯度反转层（GRL）搞解耦，最后用个线性组合的语言嵌入来控制强度。思路清晰，也确实做了实验。然而，它离一篇顶级会议论文的创新性和深度还有距离。核心创新“口音强度控制器（AIC）”被分解为三个相对标准的部分，组合起来的理论依据和细节描述都显薄弱。实验基线选择存疑，部分结论解读不够严谨，消融实验也不够彻底。更像是一次“现有模块的定制化应用”，而非提出了一个深刻的新方法或新见解。包装尚可，但内核的独创性和技术深度支撑不起一个很强的得分。 ...