低资源 | 语音/音乐/音频论文速递

Towards Robust Arabic Speech Emotion Recognition with Deep Learning

📄 Towards Robust Arabic Speech Emotion Recognition with Deep Learning #自监督学习 #数据增强 #低资源 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | #语音情感识别 | #自监督学习 | #数据增强 #低资源 | arxiv 👥 作者与机构 Youcef S. Gheffari, Samiya Silarbi ADASCA Laboratory – Advanced Data Science and Cognitive Applications, Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf (USTO-MB), Oran, Algeria ...

ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

📄 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning #自监督学习 #低资源 #语音识别 #语音情感识别 #说话人验证 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #语音情感识别 | arxiv 👥 作者与机构作者：Khanh Le, Kiet Anh Ha, Bao Duy Le, Dung Thai, Linh Khoa Tran, D Doan 机构：VinUniversity, Vietnam; UNEY, Switzerland ...

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜（45 篇，按分数降序）排名论文总分分档主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification

📄 A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification #自监督学习 #对比学习 #低资源 #多语言 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前50% | #自监督学习 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构 Agneedh Basu1, Pavan Kumar J1, Sujith P1, Visruth Sanka1, Nihar Desai1, Prasanta Kumar Ghosh2 ...

A study on the impact of region specific data on the performance of Indic ASR

📄 A study on the impact of region specific data on the performance of Indic ASR #语音识别 #低资源 #多语言 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #低资源 | #多语言 | arxiv 👥 作者与机构作者：Agneedh Basu, Pavan Kumar J, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh。机构：AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India； Department of Electrical Engineering, Indian Institute of Science, Bangalore, India。 ...

Factors affecting ASR performance: A study using state of the art ASR models in Indic Languages

📄 Factors affecting ASR performance: A study using state of the art ASR models in Indic Languages #语音识别 #低资源 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #低资源 | arxiv 👥 作者与机构作者：Agneedh Basu, Pavan Kumar J, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh 机构：1 AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India；2 Department of Electrical Engineering, Indian Institute of Science, Bangalore, India ...

NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech

📄 NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech #语音合成 #变分自编码器 #生成对抗网络 #低资源 #多任务学习 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #变分自编码器 | #生成对抗网络 #低资源 | arxiv 👥 作者与机构 Hongkun Yang (1), Xinhui Yi (2), Xiyan Zhao (2), Yibo Meng (3), Lionel Z. Wang (2), Lixu Wang (4), Yaqi Zhang (5), Ruiqi Chen (6), Xuanyue Zhao (4), Lanxin Zhang (4), Yu Zeng (7), Weijia Chu (2), Yiming Ma (8), Chenyu Liu (2), Jianghao Lin (7), Xin Xu (2) ...

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

📄 Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages #语音识别 #低资源 #多语言 #自回归模型 6.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 后50% | #语音识别 | #低资源 | #多语言 #自回归模型 | arxiv 👥 作者与机构作者：Venkata Kumar Tripathi, Chowdam Kumar, Pankaj Wasnik 机构：Media Analysis Group, Sony Research India 邮箱：kumud.tripathi@sony.com, chowdam.kumar@sony.com, pankaj.wasnik@sony.com 💡 毒舌点评这篇论文切中了多语言ASR中一个真实且重要的痛点：Whisper等模型在达罗毗荼语上的表现显著落后于印地语等。作者通过语言学分析将问题归因于形态复杂性导致的解码器注意力失衡，这个动机是合理且有启发性的。提出的Weighted-Attention和Self-Conditioning是直接针对这一问题的工程化尝试，方法本身是合理且可理解的。然而，最大的问题在于贡献的“天花板”较低。两个模块都是对现有Transformer解码器的微小调整（门控和残差连接），创新深度有限。实验规模（仅微调解码器、使用Medium模型、8种印度语言+2种泛化语言）和与当前最强基线（如Whisper-large-v3或专有SOTA）的差距分析不足，使得结论的说服力打了折扣。更关键的是，完全未开源，对于一项声称解决“公平性”问题的工作来说，这限制了其社会影响力和可复现性。总的来说，这是一篇扎实的、解决特定问题的工作，但离顶会论文所期望的突破性贡献仍有距离。 ...

Parameter-Efficient Continual Learning for Automatic Speech Recognition

📄 Parameter-Efficient Continual Learning for Automatic Speech Recognition #语音识别 #持续学习 #低资源 8.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.1/10 | 前25% | #语音识别 | #参数高效微调 | #持续学习 #低资源 | arxiv 👥 作者与机构作者：Steven Vander Eeckt, Hugo Van Hamme 机构：Department Electrical Engineering ESAT-PSI, KU Leuven, Leuven, Belgium 💡 毒舌点评论文提出了一个在ASR领域探索PECL的扎实工作，但“最全面实证研究”的宣称需要更审慎的评估。方法核心是对SSVD的逆向应用（改头部为尾部）并结合持续学习中经典技巧（权重平均），其新颖性更多体现在特定领域的适配和验证，而非原理上的突破。实验设计虽合理，但仅两个任务的序列长度，对于宣称“减少遗忘”这一CL核心挑战的验证略显不足。部分基线（MiLoRA， OPLoRA）在实验2中缺失结果却未作讨论，是一个明显的疏漏。论文写作清晰，但公式(2)的笔误和“Separate Model”描述的潜在矛盾需在终稿中修正。整体而言，这是一篇合格的、有实用价值的领域工作，但距离顶尖会议的理论深度或实验规模仍有差距。 📌 核心摘要本文针对语音基础模型在多任务顺序适配中面临的灾难性遗忘和参数效率问题，提出了CSSVD方法。该方法基于奇异值分解（SVD），将预训练权重矩阵划分为高能量的“头部”和低能量的“尾部”。与SSVD在头部进行适应不同，CSSVD将新任务的适应限制在尾部子空间内，仅学习一个近似旋转矩阵，从而保护对旧任务至关重要的主干知识。在学习后续任务时，通过简单的凸组合（权重平均）来合并模型，进一步平滑更新以减轻遗忘。在两个多语言/方言ASR基准上的实验表明，CSSVD相比多种源自NLP/视觉领域的先进PECL基线（如LoRA+FTA， BiLoRA），能显著降低平均词错误率（WER）并极大缓解遗忘（BWT更接近零）。消融研究证实了尾部适应、近似旋转和权重平均这三个组件的协同有效性。 ...