低资源 | 语音/音乐/音频论文速递

End-to-End Voice Intent Recognition for Spontaneous Human-Drone Interaction with Naive Users

📄 End-to-End Voice Intent Recognition for Spontaneous Human-Drone Interaction with Naive Users #端到端 #自监督学习 #知识蒸馏 #低资源 7/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #端到端 | #自监督学习 | #知识蒸馏 #低资源 | arxiv 👥 作者与机构 Allan Henry1,2,3, Solange Rossato1, Christian Graff2, Sylvain Huet3, Jose-Ernesto Gomez-Balderas3。 1LIG, Univ. Grenoble Alpes, Grenoble, France；2LPNC, Univ. Grenoble Alpes, Grenoble, France；3GIPSA-lab, Univ. Grenoble Alpes, Grenoble, France。通讯邮箱：firstname.lastname@univ-grenoble-alpes.fr。 ...

Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction

📄 Error-Aware TF-IDF Retrieval-Augmented Generation for ASR Error Correction #语音识别 #低资源 #语音增强 6.1/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #低资源 | #语音增强 | arxiv 👥 作者与机构 Mohammad Aref Jafari-Raddani。作者隶属于伊朗库姆的库姆科技大学计算机工程系，以及伊朗伊斯法罕的Asa Electronic Akhtaran公司。通讯邮箱为 raddaniaref@gmail.com。 💡 毒舌点评这篇论文的工作像是在给一个经典的检索增强生成（RAG）流水线做一次非常针对性的“微调”，而非提出新的架构。其核心贡献——修改TF-IDF以赋予错误词项更高权重——虽然在工程上直接且有效，但在方法论上缺乏足够的新颖性和理论深度，更像是一种启发式的技巧。论文在实验验证上显得非常单薄：仅在一个数据集（FLEURS波斯语子集）上评估，模型组合固定（Whisper + Gemini），完全缺乏与其他SOTA纠错方法的对比，也缺少关键的消融研究来证明每个组件（如对称归一化、权重公式）的独立贡献。将错误感知命中率（EA-HR）作为主要贡献之一提出，但其评估范围局限于Top-3检索结果，说服力有限。论文在“未来工作”中提到的计划（如扩展知识库、领域迁移）恰恰点明了当前工作的天花板。整体感觉是一篇扎实但缺乏野心和深度的系统微调报告。 📌 核心摘要本文针对低资源语言（以波斯语为例）的端到端ASR系统频繁产生的音似和循环幻觉问题，提出了一种高效的检索增强生成（RAG）纠错框架。该框架包含两个主要组件：1）一个对称应用的文本归一化模块，用于处理格式差异和循环幻觉；2）一种新颖的错误感知TF-IDF检索算法，通过构建基于历史错误概率的稀疏对角惩罚矩阵，动态提升高频错误词项的检索权重。在FLEURS波斯语子集上的实验表明，该方法将错误感知命中率从53.7%显著提升至90.9%，并将端到端词错误率从基线23.06%降低至18.83%，且在推理阶段几乎不引入额外延迟。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重链接（论文使用了 Whisper large-v3-turbo 和 Google Gemini 2.0 Flash-Lite 模型，但未提供其权重的具体下载地址）数据集：论文中未提及数据集链接（论文明确使用了 Google FLEURS 数据集的波斯语子集，但未给出具体下载地址） Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 🏗️ 方法概述和架构本文提出的框架整体架构如图1所示，旨在通过轻量级修改增强标准的ASR-RAG流水线。核心流程分为离线知识库构建和在线推理两个阶段，两者共享对称的预处理模块。 ...

Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models

📄 Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models #语音识别 #语音翻译 #参数高效微调 #多模态模型 #低资源 5.8/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #语音翻译 #多模态模型 | arxiv 👥 作者与机构 Tomoya Mizumoto, Yusuke Fujita, Hao Shi, Lianbo Liu, Atsushi Kojima, Yui Sudo. （作者所属机构未在提供的原文片段中明确提及） 💡 毒舌点评这篇文章就像一个精心设计的“方言压力测试”。它思路清晰，实验控制得当，像个规规矩矩的优等生作业，把“SLM继承LLM能力”和“数据/微调有用”这两个直觉验证得漂漂亮亮。但问题在于，这个“压力测试”的跑道（翻译任务）太窄，沙坑（CPJD数据集）太小，连计时器（TTS标准语音）都可能不准。结果就是，你得到了一份关于“如何在特定小跑道上跑得更稳”的精致报告，但对于“方言问题到底有多复杂、在真实世界中如何解决”的宏大命题，贡献就比较有限了。它证明了一些常识，但缺乏让人“Wow”的突破或深刻的洞见。分数给高了对不起那些真正硬核的创新，给低了又委屈了它的严谨和工整，所以卡在中间。 ...

Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant

📄 Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant #语音识别 #语音合成 #自监督学习 #低资源 #数据增强 6.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #自监督学习 | #语音合成 #低资源 | arxiv 👥 作者与机构作者：Milosz Dudek, Kamil Hemmerling, Maciej Kwarciak, Maria Stroinski, Mateusz Pensko, Kamil Kowalewski, Leonid Pavlovskyi, Sebastian Jurczak, Anna-Mariia Vitkovska, Zuzanna Miodonska, Natalia Mocko, Michal Krecichwost。机构：1 AGH University of Krakow, Cracow, Poland; 2 SoftServe, Cracow, Poland; 3 Department of Biomedical Engineering, Silesian University of Technology, Poland; 4 Institute of Linguistics, Faculty of Humanities, University of Silesia in Katowice, Poland. ...

Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection

📄 Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection #语音伪造检测 #自监督学习 #参数高效微调 #低资源 #鲁棒性 7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.6/10 | 前50% | #语音伪造检测 | #自监督学习 | #参数高效微调 #低资源 | arxiv 👥 作者与机构作者：Zihan Pan, Hardik Sailor, Jinyang Wu 机构：新加坡科技研究局 (A*STAR) 信息通信研究院 (I2R) 💡 毒舌点评这篇论文在特定赛道（单模型无增强）刷了SOTA，看起来不错。但仔细一想，这所谓的“监督后训练”不就是个精心设计的、分阶段的微调策略吗？创新性被高估了。论文把“混合帧扰动”包装得很厉害，但本质是数据层面的一种增强手段，只是换了个名字叫“post-training”。更让人皱眉的是，方法论部分写得像在绕迷宫，公式列了一堆但关键直觉阐述不清，比如为什么帧级标签分配要依据中心样本（公式3）？这个设计选择缺乏足够的动机论证。另外，在ASV21上只比别人好了一丢丢（gap从0.34降到0.16），但论文却大书特书其“平衡的鲁棒性”，有过度claim之嫌。总之，这是一篇工程上做了不少工作（值得肯定），但理论洞察和叙事都有提升空间的论文。 ...

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

A Fusion-Aware Two-Stage Framework for Mispronunciation Detection and Diagnosis in Low-Resource Modern Standard Arabic

📄 A Fusion-Aware Two-Stage Framework for Mispronunciation Detection and Diagnosis in Low-Resource Modern Standard Arabic #语音识别 #低资源 #自监督学习 #集成学习 7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #集成学习 | arxiv 👥 作者与机构论文作者包括Yang, Zhang, Deng, Li, Dang, Huang, Chen, Benesty, Jing, Shuqing, Yongyi, Pan, Ting, Gongping, Jingdong, Jacob。主要机构为武汉大学、墨尔本大学、西北工业大学和魁北克大学。 ...

Audio--Image Alignment as a Continued-Pretraining Stage Improves Low-Resource ASR

📄 Audio–Image Alignment as a Continued-Pretraining Stage Improves Low-Resource ASR #语音识别 #自监督学习 #对比学习 #低资源 #多模态模型 6.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构作者：Sujith Pulikodan, Nihar Desai, Prasanta Kumar Ghosh。机构：论文中未明确说明作者所属机构。根据作者姓名和研究领域推测，可能来自印度的相关研究机构（例如印度科学研究所 IISc Bangalore）。 💡 毒舌点评改进幅度的“相对性”：论文在FLEURS上的21.26%相对WER降低听起来很惊人，但这主要是因为基线模型在FLEURS（未见语言）上表现极差（WER 67.78%）。从绝对数值看，最佳模型将WER从0.68降到0.53，仍属于“不可用”到“勉强可读”的范畴。在资源更丰富的Vaani上，改进仅在1-2%之间，这种“蚊子腿”级别的增益在实际部署中几乎无感。数据集依赖性过强：核心假设——易获取的音频-图像对——严重依赖于Vaani这个特定收集范式（图片提示说话）。在绝大多数真实低资源场景中，这种精心配对的多模态数据并不存在。方法泛化能力存疑。成本转嫁而非消除：声称“无需转录”，但获取数十万小时高质量且配对的音频-图像数据，其成本真的远低于获取转录文本吗？Vaani数据集本身的收集就是一项巨大的工程。这更像是将一种稀缺资源（转录文本）的成本转嫁到了另一种稀缺资源（配对多模态数据）上。消融不足：声称改进来自“对齐阶段”而非更多数据，但对比实验仅用了三个检查点的微小差异。更彻底的消融应包括：a) 使用相同音频但随机配对图像的模型；b) 使用相同音频但无图像（纯文本描述）的模型。现有证据链不够强。工程细节模糊：虽然描述了架构，但关键超参数（如对齐阶段各组件的学习率缩放因子0.05的具体依据）未解释。三种对齐配置的对比更像是超参搜索，而非对不同模态交互机制的深度分析。 📌 核心摘要本文针对低资源语音识别问题，提出了一种在自监督音频预训练和监督微调之间引入“音频-图像对齐”的中间适应阶段。该方法利用预先冻结的视觉编码器（如SigLIP2、Qwen3-VL）提取图像语义特征，通过对比学习（SigLIP损失）训练音频编码器，使其输出表示与图像特征对齐，全程无需转录文本。实验在Vaani（48种语言）和FLEURS（14种南亚语言）数据集上进行。结果表明，经过对齐的模型在两个基准上均优于直接微调的基线，尤其是在FLEURS这种更极端低资源场景下，最佳模型的词错误率（WER）实现了21.26%的相对下降，且统计检验显示该提升具有显著性。论文认为，此对齐阶段有效提升了音频表示的鲁棒性和泛化能力。 ...

Autoencoder based optimized SSL representations: Complexity Minimization and improved Dysarthric ASR

📄 Autoencoder based optimized SSL representations: Complexity Minimization and improved Dysarthric ASR #语音识别 #自监督学习 #低资源 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Paban Sapkota (作者), Hemant Kumar Kathania (作者), Mikko Kurimo (作者), Shrikanth Narayanan (作者), Sudarsana Reddy Kadiri (通讯作者) ...

BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset

📄 BanglaFake: Constructing and Evaluating a Specialized Bengali Deepfake Audio Dataset #音频深度伪造检测 #语音合成 #低资源 9/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 后50% | #音频深度伪造检测 | #语音合成 | #低资源 | arxiv 👥 作者与机构 Istiaq Ahmed Fahad, Kamruzzaman Asif, Sifat Sikder Institute of Information Technology, University of Dhaka, Bangladesh 💡 毒舌点评这是一篇典型的“填补空白”式工作，对于孟加拉语社区来说是个不错的资源，但顶会水平？它甚至没敢声称自己的生成模型是SOTA。论文的核心价值是发布了一个“存在”的数据集，而不是推进了检测技术。评估部分只有主观打分和一张看不清的t-SNE图，缺乏任何有说服力的定量实验来证明这个数据集真的能提升现有检测器的性能。如果连在最简单的baseline上跑个数都省了，那么发布数据集的“核心贡献”就打了一半折扣。作者未来的工作展望（加说话人）听起来像是这篇论文本该完成的部分。 ...