低资源 | 语音/音乐/音频论文速递

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜（48 篇，按分数降序）排名论文总分分档主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分前50% - 29. A study on the impact of region specific data on the pe 7.2分前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构作者：Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。机构：dots团队，小红书公司（Xiaohongshu Inc.），上海交通大学X-LANCE实验室。 ...

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜（38 篇，按分数降序）排名论文总分分档主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分前25% #语音识别 6. dots.tts Technical Report 9.0分前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Age-Aware Adapter Tuning for Children's Speech Recognition

📄 Age-Aware Adapter Tuning for Children's Speech Recognition #语音识别 #参数高效微调 #自监督学习 #低资源 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #语音识别 | #参数高效微调 | #自监督学习 #低资源 | arxiv 👥 作者与机构论文中未明确列出作者及机构信息。 💡 毒舌点评增量改进，包装先行：论文标题中的“Age-Aware”听起来很前沿，但核心贡献是为不同年龄组训练多个小适配器并进行路由。这本质上是“为不同子群体微调不同模块”的工程实践，学术创新有限。最大的卖点——性能提升，从12.6%到12.3%的WER（0.3%的绝对改进）在语音识别领域属于微弱改善，说服力不足。实验设计存在疑问：12+组的WER极低（4.5%-5.1%），但论文自己也承认该组“仅包含单次发音样本”，与其他组的句子级识别任务完全不同。将不同难度、不同格式的任务混合计算宏WER，并以此论证方法在“所有年龄组”的改进，有混淆视听之嫌。方法在最具挑战的3-4岁组的改进（从8.5%到8.3%）同样微不足道。 “接近”的阈值在哪？：论文反复强调预测年龄路由性能“接近”真实年龄路由。但具体到数字，Top-1预测路由的宏WER（17.9%）比真实路由（17.6%）差0.3%，整体WER差0.1%。这种差距是否可接受取决于实际部署成本，但论文未讨论路由器可能带来的额外延迟和错误传播风险。 FiLM作为对比组显得疲软：FiLM适配器的性能甚至不如简单的“堆叠适配器”（stacked adapter），这要么说明FiLM实现存在问题，要么说明在当前设定下这种动态调制机制对儿童语音的年龄差异过于复杂或无效。论文用它作为主要对比，削弱了“年龄专用适配器更优”这一结论的力度。局限性轻描淡写：作者在结论中承认“不同年龄组的录音和任务构成可能影响分组结果”，但这恰恰是实验设计的核心漏洞，却被一笔带过。没有消融实验验证年龄组划分的合理性，也没有探索其他划分方式。 📌 核心摘要本文研究了在参数高效适配框架下，年龄信息如何改进儿童语音识别（ASR）。研究在预训练的NVIDIA Parakeet-tdt-0.6B-v2模型上进行，首先训练一个适用于所有儿童语音的共享适配器作为基线。随后，提出了两种年龄感知适配策略：1）年龄专用适配器，为每个年龄组训练独立的残差适配器，通过预测的年龄路由器进行选择；2）统一FiLM适配器，使用一个受年龄条件调制的共享适配器。在On Top of Pasketti儿童ASR挑战赛的Word Track数据集（包含3-12岁及以上儿童语音）上的实验表明，使用真实年龄进行路由的年龄专用适配器在所有年龄组上均优于共享适配器基线，将整体WER从12.6%降至12.3%，宏WER从18.4%降至17.6%。使用预测年龄路由的性能接近真实年龄路由（整体WER 12.3%，宏WER 17.8%）。统一FiLM适配器的效果弱于年龄专用适配器。研究结论表明，年龄专用残差适配是改善儿童ASR鲁棒性的有前景且实用的方向。 ...

An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization

📄 An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization #语音合成 #低资源 7.7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #低资源 | arxiv 👥 作者与机构 Xiao-Hang Yang, Fei Liu, Rui-Chen Jiang, Jian-Qing Gao, Zhen-Hua Ling, Ji Wu 机构：中国科学技术大学 (1), 科大讯飞 (2), 清华大学 (3) 💡 毒舌点评这篇论文解决的是一个真实且重要的问题：如何在比特率压到极限（0.5 kbps）时还能保持语音质量。P2PSVQ的思路——用预测来模拟量化——确实巧妙，相当于“脑补”出了额外的细节，且不花带宽。这比单纯堆大模型（如BigCodec）要优雅。然而，论文的软肋在于“验证”部分。主观测试样本量小，难以服众；对比FSQ方法（SQCodec）时，对方官方代码不支持0.5 kbps，这成了一个无法验证的“借口”。更关键的是，伪VQ的引入让模型复杂度（参数量）翻了三倍多，虽然FLOPs增长不多，但推理时的内存占用和延迟可能是个隐患，论文却对此轻描淡写。消融实验揭示了一个尴尬事实：伪VQ加多了，基本token信息变少，预测反而变难，质量会掉。这使得核心设计（伪VQ数量）的选择更像是在走钢丝。总体而言，一个不错的idea，但支撑它的实验和分析还不够扎实，像是匆忙毕业的作品。 ...

Automatic Labelling of Speech Translation Errors

📄 Automatic Labelling of Speech Translation Errors #语音识别 #多模态模型 #模型评估 #低资源 6.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #多模态模型 | #模型评估 #低资源 | arxiv 👥 作者与机构 Dominik Macháček (Charles University, University of Edinburgh), Maike Züfle (Karlsruhe Institute of Technology), Ondrej Klejch (University of Edinburgh) 💡 毒舌点评这篇工作像一个精心准备的“开胃菜”：它正确地识别了ST评估领域一个鲜有人触碰的细分方向（错误跨度标注），并为此设计了一套完整的“菜单”（标注协议、数据集、基准系统）。然而，这终究不是一场盛宴。其核心贡献在于定义问题和提供初步基线，而非给出强有力的解决方案。数据集规模极小（仅约30分钟音频），且仅来自两个文档，这严重限制了结论的普适性。所谓的“自动化系统”评估，本质上只是对XCOMET和Qwen两个现有模型进行了非常浅层的“试用”，缺乏针对性的优化或深入的架构分析。最令人失望的是，论文虽然指出了语音处理的重要性，但并未真正提出或评估一个端到端的、为STEL任务设计的新模型。它更像是一份“可行性报告”或“任务说明书”，离解决所提出的问题还有很长的路要走。其最大的价值在于为后续研究铺平了道路并设立了基础基准，但就其自身而言，贡献的深度和广度有限。 ...

Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis

📄 Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis #多模态模型 #参数高效微调 #低资源 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #多模态模型 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构作者：Bin Wen, Tien-Ping Tan。机构：School of Computer Sciences, Universiti Sains Malaysia, Penang, Malaysia。 ...

CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection

📄 CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection #语音合成 #语音识别 #自监督学习 #低资源 #数据增强 6.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构作者：Yin-Long Liu, Yuanchao Li, Yiming Wang, Yue Li, Rui Feng, Jiaxin Chen, Shaobo Liu, Liu He, Yuang Chen, Jiahong Yuan, Zhen-Hua Ling 机构：中国科学技术大学，爱丁堡大学 ...

Exploring LLMs for South Asian Music Understanding and Generation

📄 Exploring LLMs for South Asian Music Understanding and Generation #音乐理解 #音乐生成 #低资源 #大语言模型 7.7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前50% | #音乐生成 | #音乐理解 | #低资源 #大语言模型 | arxiv 👥 作者与机构 Faria Binte Kader, Mohtasim Hadi Rafi, Shah Wasif Sazzad, Santu Karmaker University of Central Florida, Auburn University ...

FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition

📄 FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition #语音识别 #参数高效微调 #低资源 #语音问答 8.0/10 | 创新 6/2 | 严谨 7/1.5 | 实验 6/1.5 | 清晰 8/1 | 影响 5/1.5 | 开源 7/1.5 | 复现 7/0.5 | 工程 6/1.5 🔥 8.0/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #语音问答 | arxiv 👥 作者与机构 Fernando López, Santosh Kesiraju, Jordi Luque Telefónica Innovación Digital Spain, Universidad Autónoma de Madrid Spain, Brno University of Technology Czech Republic ...