低资源 | 语音/音乐/音频论文速递

ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析共分析 133 篇 ICLR 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音合成（10篇）音频生成（9篇）语音识别（9篇）基准测试（9篇）音乐生成（9篇）语音对话系统（8篇）音频分类（6篇）音频问答（6篇）语音情感识别（5篇）多模态模型（5篇）音视频（4篇）音频检索（4篇）语音分离（3篇）模型评估（2篇）语音翻译（2篇）音乐信息检索（2篇）生成模型（2篇）音乐理解（2篇）视频生成（2篇）跨模态生成（1篇）脑编码（1篇）模型可解释性（1篇）音视频深度伪造检测（1篇）图像生成（1篇）数据集（1篇）语音增强 #对抗样本（1篇）语音大模型（1篇）音频编辑（1篇）音视频事件检测（1篇）生态计算（1篇）视频描述生成（1篇）视频摘要（1篇）语音问答（1篇）基准测试 #数据集（1篇）音频安全（1篇）神经网络架构（1篇）语音转换 #语音匿名化（1篇）声源定位（1篇）序列解耦（1篇）空间音频（1篇）音频分离（1篇）机器人操作（1篇）动作生成（1篇）音频场景理解（1篇）跨模态检索（1篇）语音增强（1篇）多模态推理（1篇）语音合成评估（1篇）语音生成（1篇）生物声学（1篇）模型比较（1篇）音视频联合推理（1篇）语音识别 #语音合成（1篇） ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

Building an ASR Solution for Training and Assessing Children's Reading

📄 Building an ASR Solution for Training and Assessing Children's Reading #语音识别 #低资源 #数据增强 #正则化微调 8.5/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.5/10 | 前50% | #语音识别 | #数据增强 | #低资源 #正则化微调 | arxiv 👥 作者与机构作者：Yacouba Diarra, Nouhoum Souleymane Coulibaly, Mamadou Dembele, Aymane Dembele, Michael Leventhal 机构：RobotsMali AI4D Laboratory，马里巴马科 💡 毒舌点评这篇论文的定位清晰，解决了一个真实存在的痛点：在低资源非洲语言环境下进行儿童阅读评估。作者提供了一个完整的“从数据采集到课堂验证”的端到端工作流，这种工程上的完整性和在真实场景中的部署验证，是许多学术论文所缺乏的，值得肯定。所构建的公开基准数据集（an-be-kalan-bench）是其核心资产，对后续研究有价值。然而，作为一篇向顶会投稿的论文，其技术贡献显得较为常规。所谓的“创新”更多体现在应用场景的迁移和特定问题的数据集构建上，而非提出新的算法或模型架构。实验部分虽然设计了消融，但核心结论（更强的模型微调效果更好、重复数据对弱模型更有用、SpecAugment起正则化作用）均在预料之中，缺乏让人眼前一亮的深度洞察。未能与当前强大的Whisper等多语言模型进行直接比较，是一个明显的短板，削弱了其结论在更广泛ASR领域中的说服力。总体而言，这是一篇扎实的应用型工作，但离“顶会级”的算法创新仍有差距。 ...

How Bilingual Are SSL Speech Models? Cross-Lingual Probing of Articulatory Encoding with Finnish and Russian EMA

📄 How Bilingual Are SSL Speech Models? Cross-Lingual Probing of Articulatory Encoding with Finnish and Russian EMA #自监督学习 #低资源 5.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 📝 5.8/10 | 前50% | #自监督学习 | #自监督学习 | #低资源 | arxiv 👥 作者与机构作者：Ailín Pollio San Pedro, Tomi Kinnunen, Alexandre Nikolaev, Ruchi Pandey 机构：1 University Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, France; 2 University of Eastern Finland, Computational Speech Group, Finland ...

LOPA: Enhancing Spoken Language Assessment via Latent Ordinal Prototype Alignment

📄 LOPA: Enhancing Spoken Language Assessment via Latent Ordinal Prototype Alignment #低资源 6.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.2/10 | 前50% | #低资源 | #低资源 | arxiv 👥 作者与机构论文作者来自台湾师范大学（National Taiwan Normal University）。 💡 毒舌点评优点：问题定位精准：直击当前SLA领域依赖大型MLLM导致的成本与可解释性问题，提出了一个轻量级的替代范式。方法设计具有可解释性：SALR的层权重可视化（Table 4）清晰展示了模型在不同测试部分对不同深度特征的依赖，LOPA的序数约束为潜在空间提供了几何解释，这是纯端到端黑盒模型所缺乏的。实验设计严谨：进行了全面的消融实验（Table 2）和显著性检验（Table 3），验证了SALR和LOPA各自的有效性。性能扎实：在标准基准S&I 2025上取得了与SOTA MLLM方法相当的结果，证明了轻量级框架的潜力。不足与可商榷之处：创新性有局限：LOPA将原型学习和序数约束结合并非全新思想，论文的主要贡献在于将其成功应用于SLA任务并展示了与SALR的协同效应。技术新颖性属于增量改进而非突破。实验泛化性存疑：所有实验仅在一个数据集（S&I 2025）上进行，且该数据集可能与作者机构相关（论文提及由台湾语言训练测试中心支持）。缺乏在更多样化、更大规模或跨语言数据集上的验证，结论的普适性不足。基线比较可能不够公平：虽然与Phi-4 MLLM系列比较，但未详细说明这些MLLM的训练配置（如是否使用了语音转录文本、指令格式等）。将本文的纯音频模型与可能融合了文本信息的MLLM对比，需要更谨慎的分析。对“序数结构”的利用可能被高估：LOPA通过损失函数强制原型间距与分数间距成比例，这确实引导了潜在空间的几何结构，但模型最终输出仍通过一个线性头映射为分数，其序数性是否完全由LOPA“内化”为表示，还是仅作为正则化项存在，值得进一步分析。开源严重不足：完全未提供代码、模型权重或数据集，极大阻碍了研究的可复现性和社区的跟进验证，这是当前版本的一个重大缺陷。 📌 核心摘要本文提出LOPA，一个用于口语语言评估（SLA）的轻量级框架，旨在避免对大型多模态语言模型（MLLM）的依赖。该框架包含两个核心组件：语义锚定层路由（SALR）从冻结的Whisper编码器中自适应聚合多层特征；潜在序数原型对齐（LOPA）通过原型损失和序数约束损失，在潜在空间中显式构建与CEFR等级对齐的序数几何结构。在Speak & Improve 2025评估集上，该模型（仅使用Whisper Large-v3编码器）达到了0.361的RMSE和0.828的PCC，性能与经过微调的十亿参数MLLM系统（如Phi-4-MTL-APP）相当，同时具备更高的效率和可解释性。 ...

LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish

📄 LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish #语音合成 #语音识别 #自监督学习 #低资源 #基准测试 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构 Nina Hosseini-Kivanani Sandipana Dowerah 💡 毒舌点评这篇论文好在选题切中要害——低资源语言+表达性语音+真实场景数据，确实是块缺肉的骨头。LuxEmo语料库的构建和公开（附带采样链接）是实打实的贡献，工作流描述也算清楚。但“严苛审稿人”视角下，槽点不少：语料库就4位主播，还来自同一个青年节目，说能代表“卢森堡语”有点勉强，作者自己也承认了，但评审意见应更尖锐地指出这直接限制了论文声称的“系统性评估”的普适性上限。情绪分布那“0.5%的愤怒”简直是个事故级数据倾斜，论文仅在结论提一句，审稿人应该追问这如何影响了模型训练与评估的有效性，以及基准测试结论在多大程度上是“可泛化的”。评估方面，20人主观听测且无显著性检验，置信区间大幅重叠，这个“基准”的排名可靠性打个大问号。论文反复强调代码混合是挑战，但分析部分却没拿出任何细粒度的分析（比如混合段vs纯语种段的WER对比），这属于典型的“提了但没分析”，深度不足。另外，像情绪检测分类器的训练数据、置信度阈值选取这些影响复现的关键细节一笔带过，不够“严谨”。总的来说，是一篇合格的资源发布和基准测试论文，但离顶会要求的深度分析和严谨论证还有距离，其影响力主要局限在资源本身，而非方法论或深刻洞察。 📌 核心摘要本文介绍了LuxEmo，一个用于卢森堡语的表达性语音语料库和TTS基准测试集。该语料库包含从RTL青年广播档案中通过半自动工作流提取的21小时自发语音，标注了语言、说话人身份和四种情绪（中性、快乐、悲伤、愤怒）。作者在LuxEmo上评估了五种TTS系统，涵盖跨语言迁移、多语言支持和卢森堡语适配等方案。主要发现包括：没有单一TTS系统在所有评估维度（音频质量、可懂度、韵律、说话人相似度、情感自然度）上最优；目标语言适配在部分指标上有效但非全面；基于ASR的客观可懂度与人类主观感知的自然度、情感表现存在差异。论文同时指出了语料库在说话人覆盖、情绪分布均衡性以及评估统计显著性方面的局限性。 🔗 开源详情代码：论文中未提供代码链接。模型权重：论文中未提供模型权重链接。数据集：LuxEmo语料库。论文中未提供公开获取链接，但提供了语料库采样链接：https://anonymous.4open.science/r/LuxEmo_Sample-445F/。 Demo：论文中未提及。复现材料：论文中未提供完整的训练配置、检查点或附录，但提及了数据划分使用的固定随机种子为42。论文中引用的开源项目：论文中提及了以下项目，但未提供具体链接。 DeepFilterNet [32] NISQA v2.0 [24] DNSMOS [30] LuxASR [9, 26, 35] Wav2Vec2-based mms-lid-4017 model [27] Whisper [28] SpeechBrain ECAPA-TDNN [29] pYIN [21] Sequitur G2P (用于LuxEmo): https://github.com/PeterGilles/sequitur-g2p German gruut (用于EmoDB比较): https://github.com/sequitur-g2p/sequitur-g2p 🏗️ 方法概述和架构本文的方法可分为两大核心部分：LuxEmo语料库构建和TTS基准测试评估。 ...

Tone-Conditioned Curriculum Learning for Low-Resource Bantu Speech Recognition

📄 Tone-Conditioned Curriculum Learning for Low-Resource Bantu Speech Recognition #语音识别 #低资源 #课程学习 7.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.3/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #课程学习 | arxiv 👥 作者与机构 Kesego Mokgosi (d23126641@mytudublin.ie), Vukosi Marivate, Sitwala Mundia, Unarine Netshifhefhe, Tsholofelo Hope Mogale, Thapelo Sindane 1 Technological University Dublin, Ireland 2 Data Science for Social Impact, University of Pretoria, South Africa 3 Lelapa AI ...

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark

📄 GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark #语音识别 #语音翻译 #低资源 #口音识别 8.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前50% | #语音识别 | #语音翻译 | #低资源 #口音识别 | arxiv 👥 作者与机构 Yujie Tu1,2,8,9, Yifan Yang1, Tianrui Wang4, Yanqiao Zhu1, Guodong Lin5, Mingchen Shao6, Haoran Wang1, Junzhe Liu1, Yuxiang Fu5, Yizhou Peng7, Changsong Liu7, Peng Wang11, Zhikang Niu1, Yunchong Xiao3, Haolong Zheng10, Xiuwen Zheng10, Xulin Fan10, Wei-Qiang Zhang5,16, Lei Xie6,15, Longbiao Wang4, Eng-Siong Chng7, Jiajun Zhang8,9, Kele Xu13, Jianwei Yu3, Binbin Zhang3,15, Jiayu Du16, Wupeng Wang3, Zhigao Chen3, Yunlong Wu3, Guoguo Chen14,16, Xipeng Qiu2,12, Mark Hasegawa-Johnson10, Kai Yu1, Zhifu Gao3, Xiangang Li3, Xie Chen1,2,16 机构: 1.SJTU, 2.SII, 3.Alibaba, 4.TJU, 5.THU, 6.ASLP@NPU, 7.NTU, 8.CASIA, 9.UCAS, 10.UIUC, 11.CUHK-SZ, 12.FDU, 13.CCSE, 14.Seasalt.ai, 15.WeNet, 16.SpeechColab ...

wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2

📄 wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2 #自监督学习 #低资源 #迁移学习 8.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 1.5/1.5 | 开源 0.9/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #低资源 #迁移学习 | arxiv 👥 作者与机构 James Tanner (1,2), Morgan Sonderegger (2), Jane Stuart-Smith (1), Tyler Kendall (3), Jeff Mielke (4) 1 University of Glasgow, United Kingdom 2 McGill University, Canada 3 University of Oregon, United States 4 North Carolina State University, United States ...

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...