ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

📄 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning #自监督学习 #低资源 #语音识别 #语音情感识别 #说话人验证 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #语音情感识别 | arxiv 👥 作者与机构 作者:Khanh Le, Kiet Anh Ha, Bao Duy Le, Dung Thai, Linh Khoa Tran, D Doan 机构:VinUniversity, Vietnam; UNEY, Switzerland ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 414 words

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-06-12 · 26 min · 5465 words

A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification

📄 A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification #自监督学习 #对比学习 #低资源 #多语言 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前50% | #自监督学习 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构 Agneedh Basu1, Pavan Kumar J1, Sujith P1, Visruth Sanka1, Nihar Desai1, Prasanta Kumar Ghosh2 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 306 words

A study on the impact of region specific data on the performance of Indic ASR

📄 A study on the impact of region specific data on the performance of Indic ASR #语音识别 #低资源 #多语言 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #低资源 | #多语言 | arxiv 👥 作者与机构 作者:Agneedh Basu, Pavan Kumar J, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh。 机构:AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India; Department of Electrical Engineering, Indian Institute of Science, Bangalore, India。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 261 words

Factors affecting ASR performance: A study using state of the art ASR models in Indic Languages

📄 Factors affecting ASR performance: A study using state of the art ASR models in Indic Languages #语音识别 #低资源 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #低资源 | arxiv 👥 作者与机构 作者:Agneedh Basu, Pavan Kumar J, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh 机构:1 AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India;2 Department of Electrical Engineering, Indian Institute of Science, Bangalore, India ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 297 words

NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech

📄 NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech #语音合成 #变分自编码器 #生成对抗网络 #低资源 #多任务学习 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #变分自编码器 | #生成对抗网络 #低资源 | arxiv 👥 作者与机构 Hongkun Yang (1), Xinhui Yi (2), Xiyan Zhao (2), Yibo Meng (3), Lionel Z. Wang (2), Lixu Wang (4), Yaqi Zhang (5), Ruiqi Chen (6), Xuanyue Zhao (4), Lanxin Zhang (4), Yu Zeng (7), Weijia Chu (2), Yiming Ma (8), Chenyu Liu (2), Jianghao Lin (7), Xin Xu (2) ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 466 words

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 360 words

Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

📄 Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages #语音识别 #低资源 #多语言 #自回归模型 6.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 后50% | #语音识别 | #低资源 | #多语言 #自回归模型 | arxiv 👥 作者与机构 作者:Venkata Kumar Tripathi, Chowdam Kumar, Pankaj Wasnik 机构:Media Analysis Group, Sony Research India 邮箱:kumud.tripathi@sony.com, chowdam.kumar@sony.com, pankaj.wasnik@sony.com 💡 毒舌点评 这篇论文切中了多语言ASR中一个真实且重要的痛点:Whisper等模型在达罗毗荼语上的表现显著落后于印地语等。作者通过语言学分析将问题归因于形态复杂性导致的解码器注意力失衡,这个动机是合理且有启发性的。提出的Weighted-Attention和Self-Conditioning是直接针对这一问题的工程化尝试,方法本身是合理且可理解的。然而,最大的问题在于贡献的“天花板”较低。两个模块都是对现有Transformer解码器的微小调整(门控和残差连接),创新深度有限。实验规模(仅微调解码器、使用Medium模型、8种印度语言+2种泛化语言)和与当前最强基线(如Whisper-large-v3或专有SOTA)的差距分析不足,使得结论的说服力打了折扣。更关键的是,完全未开源,对于一项声称解决“公平性”问题的工作来说,这限制了其社会影响力和可复现性。总的来说,这是一篇扎实的、解决特定问题的工作,但离顶会论文所期望的突破性贡献仍有距离。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 396 words

Parameter-Efficient Continual Learning for Automatic Speech Recognition

📄 Parameter-Efficient Continual Learning for Automatic Speech Recognition #语音识别 #持续学习 #低资源 8.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.1/10 | 前25% | #语音识别 | #参数高效微调 | #持续学习 #低资源 | arxiv 👥 作者与机构 作者:Steven Vander Eeckt, Hugo Van Hamme 机构:Department Electrical Engineering ESAT-PSI, KU Leuven, Leuven, Belgium 💡 毒舌点评 论文提出了一个在ASR领域探索PECL的扎实工作,但“最全面实证研究”的宣称需要更审慎的评估。方法核心是对SSVD的逆向应用(改头部为尾部)并结合持续学习中经典技巧(权重平均),其新颖性更多体现在特定领域的适配和验证,而非原理上的突破。实验设计虽合理,但仅两个任务的序列长度,对于宣称“减少遗忘”这一CL核心挑战的验证略显不足。部分基线(MiLoRA, OPLoRA)在实验2中缺失结果却未作讨论,是一个明显的疏漏。论文写作清晰,但公式(2)的笔误和“Separate Model”描述的潜在矛盾需在终稿中修正。整体而言,这是一篇合格的、有实用价值的领域工作,但距离顶尖会议的理论深度或实验规模仍有差距。 📌 核心摘要 本文针对语音基础模型在多任务顺序适配中面临的灾难性遗忘和参数效率问题,提出了CSSVD方法。该方法基于奇异值分解(SVD),将预训练权重矩阵划分为高能量的“头部”和低能量的“尾部”。与SSVD在头部进行适应不同,CSSVD将新任务的适应限制在尾部子空间内,仅学习一个近似旋转矩阵,从而保护对旧任务至关重要的主干知识。在学习后续任务时,通过简单的凸组合(权重平均)来合并模型,进一步平滑更新以减轻遗忘。在两个多语言/方言ASR基准上的实验表明,CSSVD相比多种源自NLP/视觉领域的先进PECL基线(如LoRA+FTA, BiLoRA),能显著降低平均词错误率(WER)并极大缓解遗忘(BWT更接近零)。消融研究证实了尾部适应、近似旋转和权重平均这三个组件的协同有效性。 ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 506 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-06-12 · 29 min · 6000 words