论文速递 | 语音/音乐/音频论文速递

VIB-AVSR: Variational Information Bottleneck for Noise-Robust LLM-Based Audio-Visual Speech Recognition

📄 VIB-AVSR: Variational Information Bottleneck for Noise-Robust LLM-Based Audio-Visual Speech Recognition #语音识别 9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9/10 | 前10% | #语音识别 | #语音识别 | arxiv 👥 作者与机构论文作者：Piyush Arora, Navlika Singh, Umberto Cappellazzo, Stavros Petridis, Maja Pantic。机构：♡ Imperial College London, UK；♠ NatWest AI Research, UK。 💡 毒舌点评这篇论文像给一辆在高速公路上跑得飞快但怕下雨的豪华跑车（LLM-based AVSR）加装了一套轻量级的雨天防滑系统（VIB）。它准确地指出了问题所在（LLM骨干不抗噪），给出了一个看起来优雅且不加重负担的解决方案（插入VIB层），并且在测试场（LRS2数据集）的各种雨况（噪声类型和SNR）下证明了有效性，尤其是对极端暴雨（高噪声）有明显改善。然而，它的问题也很明显：测试场只有一个（数据集单一），对比的对手只是原厂调校版（Llama-AVSR基线），没有和其他专门设计的防滑系统（其他抗噪方法）比过；理论解释停留在“加了这个模块能防滑”的层面，没有深究为什么是这个模块、放在这个位置最有效；而且只给驱动轮（音频流）加了防滑，没考虑是否有必要也给转向轮（视频流）加。总的来说，这是一次成功的、针对性的“补丁”升级，实用性强，但离提出一套全新的车辆防滑理论或成为业界标杆还有距离。 ...

wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2

📄 wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2 #自监督学习 #低资源 #迁移学习 8.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 1.5/1.5 | 开源 0.9/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #低资源 #迁移学习 | arxiv 👥 作者与机构 James Tanner (1,2), Morgan Sonderegger (2), Jane Stuart-Smith (1), Tyler Kendall (3), Jeff Mielke (4) 1 University of Glasgow, United Kingdom 2 McGill University, Canada 3 University of Oregon, United States 4 North Carolina State University, United States ...

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

A Comparison of Fusion Techniques for Multi-Modal Human Activity Recognition on the HARMES Dataset

📄 A Comparison of Fusion Techniques for Multi-Modal Human Activity Recognition on the HARMES Dataset 7.3/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.3/10 | 前50% | arxiv 👥 作者与机构作者: Ahmed Mohamady, Robin Burchard (共同贡献), Kristof Van Laerhoven 机构: University of Siegen, Germany 💡 毒舌点评这篇论文像一个严谨的实验室品控员，而不是一个开拓新领域的科学家。它的价值在于“控制变量”做得无可挑剔——七种融合方法在完全相同的“赛道”（编码器、窗口、协议）上跑了一遍，得出了一个在当前设置下简单方法（门控、拼接）胜出的经验性结论。这对于迷茫于选择哪种融合方法的HAR工程师来说是及时雨。然而，其弱点也十分明显：结论高度依赖于特定数据集（HARMES）和特定的、固定的编码器组合（尤其是冻结的音频编码器）。作者在讨论部分也承认了这一点，但分析深度稍显不足。例如，复杂方法（如CMA、MBT）失败，究竟是因为数据/模型容量问题，还是因为这类HAR任务本身的模态交互模式就是简单直接的？论文没有给出超出数据集属性的更深入解释。此外，作为一篇音频相关模态的论文，其核心贡献（融合方法比较）在语音/音频处理领域的独创性和影响力有限，更多是HAR或可穿戴计算领域的参考。整体上，这是一篇扎实但不够大胆的基准论文，适合作为文献综述中的一个参照点，而非一篇令人兴奋的突破之作。 📌 核心摘要本文针对多模态人类活动识别（HAR）领域中融合策略选择缺乏统一基准的问题，在近期发布的HARMES数据集上进行了首次系统性的头对头比较。研究者控制了所有变量（编码器架构、数据窗口、训练超参数、评估协议），仅改变融合模块本身，公平地评估了七种代表性的多模态融合方法。结果表明，在该数据集和实验设置下，最简单的方法表现最好：门控多模态融合（GMF）以0.827的宏F1分数（3折交叉验证）和0.819（留一参与者外评估）排名第一，紧随其后的是晚期拼接融合（Late Fusion）。更复杂的注意力、张量和决策级融合方法性能均不及前两者。通过深入的类别和参与者层面分析，论文发现性能提升主要源于融合解决了特定活动对之间的混淆（如“收拾碗碟”与“清理洗碗机”），而非对所有活动的均匀提升。此外，多模态融合有效缓解了因惯用手差异（左利手）导致的IMU单模态性能下降问题。研究认为，在当前数据集规模（20人）、模态数（3个，其中湿度模态弱）和编码器条件下，简单的融合机制已能充分捕获必要的跨模态交互，为实际系统设计提供了直接的实践指导。 🔗 开源详情代码：https://github.com/AhmedMohamady98/A-Comparison-of-Fusion-Techniques-for-Multi-Modal-Human-Activity-Recognition-on-the-HARMES-Dataset 模型权重：论文中未提供预训练模型权重的下载链接。数据集：使用了HARMES数据集。获取方式为引用并遵循相关条款： HARMES dataset: Burchard, R., Mohamady, A., & Van Laerhoven, K. (2023). HARMES: a multi-modal dataset for human activity recognition using wearable and ambient sensors. In Adjunct Proceedings of the 2023 ACM International Joint Conference on Pervasive and Ubiquitous Computing (UbiComp ‘23). (arXiv: 2305.16391) 。 Demo：论文中未提及。复现材料：训练配置：论文中详细说明了训练配置，包括：优化器：Adam，使用余弦退火（无重启）。最大训练轮数：50。批大小：32。学习率：所有方法为1e-3，LMF为5e-3。早停策略：监控验证集宏平均F1，耐心值为10个轮次。损失函数：交叉熵损失（决策融合使用负对数似然损失）。检查点：论文中未提供公开的预训练检查点下载链接。附录：论文在附录0.A中提供了七种融合策略的详细架构可视化图（图8-图14），有助于复现模型结构。论文中引用的开源项目：论文引用了多个相关开源项目（如TinyHAR, AST, TSMixer, Perceiver, MMTM, CLIP, ImageBind, IMU2CLIP, Cosmo），但未直接提供这些项目在本实验中使用的具体代码链接。 🏗️ 方法概述和架构本文的研究核心是设计一个公平的基准测试框架，以直接比较七种不同的多模态融合策略。整个系统可分解为三个主要阶段：数据预处理与分割、独立模态编码、以及可互换的融合模块。 ...

A Survey of Automated Presentation Coaching: Systems, Methods, and Open Challenges

📄 A Survey of Automated Presentation Coaching: Systems, Methods, and Open Challenges #语音识别 #语音合成 #自监督学习 #多模态模型 #多任务学习 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.7/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.3/1.5 📝 5.4/10 | 后50% | #语音识别 | #自监督学习 | #语音合成 #多模态模型 | arxiv 👥 作者与机构 Wen Liang: Columbia University, Red Hat Li Siyan: Columbia University Zackary Rackauckas: RoleGaku Julia Hirschberg: Columbia University 💡 毒舌点评这篇综述试图为“自动化演讲辅导”这个看似细分但实际横跨多个热门领域的课题（CAPT、TTS、L2语言学习）建立一个清晰的分类法和研究路线图。其野心值得肯定，但执行上仍有改进空间。 ...

Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings

📄 Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings #语音增强 #自监督学习 #低资源 #数据增强 6.8/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.8/10 | 前50% | #语音增强 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构论文作者来自University of Texas at Dallas (UTDallas)，由J.H.L. Hansen教授支持。 💡 毒舌点评这篇论文的“首次”宣称需要打折扣。虽然WavLM用于语音努力分类确实是新尝试，但整体架构是标准的微调预训练模型加数据增强和损失函数改进，创新点更多是工程上的组合与验证，而非方法论上的根本突破。论文最大的问题在于实验规模过小：仅在单一、非校准的AVID数据集（约1万条样本）上进行验证，这使得“新SOTA”的宣称说服力有限，模型在更复杂、更真实场景下的泛化能力完全未知。作者提出的“高斯邻居软标签”听起来很新颖，但其核心思想（建模标签连续性）与已有的标签平滑、序数回归等方法思想相通，论文未能充分论证其相比这些成熟方法的显著优势。此外，论文开源信息为零，极大阻碍了科学验证和后续研究。整体而言，这是一篇扎实的“应用性”工作，但距离顶会所要求的“开创性”贡献还有明显差距。 📌 核心摘要本文首次将WavLM自监督模型应用于自然的非校准语音录音的语音努力分类任务。通过系统性地研究和结合多种波形级数据增强策略（如RIR卷积、噪声添加、时间掩码、速度扰动、限带）以及混合级增强（MixUp， CutMix），并创新性地提出高斯邻居软标签以建模语音努力的连续性，有效缓解了标注数据稀缺和相邻类别混淆的问题。在AVID语料库的10折交叉验证中，最佳系统（WavLM-BASE + 渐进式解冻 + MixUp + 高斯邻居软标签）达到了78.22%的平均准确率，相较于之前的基线方法有所提升。 ...

DG^VoiC: Speaker Clustering for Fraud Investigation under Real Call-Centre Conditions

📄 DG^VoiC: Speaker Clustering for Fraud Investigation under Real Call-Centre Conditions #说话人识别 5.7/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 📝 5.7/10 | 前50% | #说话人识别 | #说话人识别 | arxiv 👥 作者与机构 Muhammad Shakeel Akram, Amal Htait, Abdul Hamid Sadka, Emma Meisingseth, Karishma Jaitly. (注：论文未明确提供作者隶属机构信息) 💡 毒舌点评这篇论文试图解决一个有趣的行业应用问题，但其在顶会舞台上的学术价值严重受限。最大的硬伤是评估基础极其脆弱——仅凭一个56条录音、22个说话人类别的数据集，就敢宣称近乎完美的聚类性能（100% homogeneity），这更像是在自家后院测试，而非面对真实世界复杂性的检验。方法本质上是标准技术的流水线组装（ECAPA-TDNN + 余弦相似度），创新性存疑。尽管作者诚实地指出这是个应用导向的工作，但即便是技术报告，其分析的深度和实验的严谨性（如小数据集上的阈值选择、缺乏严格交叉验证）也难以令人信服。总体而言，它更像是一个初步的可行性演示，距离一篇扎实的研究论文还有明显差距。 📌 核心摘要本文针对保险欺诈调查中利用真实呼叫中心音频进行跨客户说话人聚类的需求，提出了DGVoiC框架。该框架包含音频匿名化、静音去除、重叠滑动窗口切片、ECAPA-TDNN说话人嵌入提取、嵌入池化聚合以及基于余弦相似度的聚类与链接。研究在一个由专家审核的极小规模真实数据集（56条录音）上进行了评估，报告了极高的聚类一致性指标。论文旨在提供一个支持分析师的工具，而非自动化决策系统，并报告了可接受的处理延迟。 ...

Dialogue to Detection: A Multimodal Hybrid NLP Pipeline for Insurance Fraud Detection

📄 Dialogue to Detection: A Multimodal Hybrid NLP Pipeline for Insurance Fraud Detection #说话人识别 6/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6/10 | 后50% | #说话人识别 | #说话人识别 | arxiv 👥 作者与机构 Muhammad Shakeel Akram, Amal Htait, Abdul Hamid Sadka, Emma Meisingseth, Karishma Jaitly. 机构：Aston University, Birmingham, UK; Domestic & General, Wimbledon, UK. ...

Do Speech Emphasis Models Generalize across Languages and Emotions?

📄 Do Speech Emphasis Models Generalize across Languages and Emotions? #语音识别 #自监督学习 #迁移学习 #多语言 #数据增强 7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前25% | #语音识别 | #自监督学习 | #迁移学习 #多语言 | arxiv 👥 作者与机构 1 Adobe Research, USA 2 Brown University, USA meganwei@brown.edu, aneja@adobe.com, jsu@adobe.com, yunyunw@adobe.com, haonanc@adobe.com, zejin@adobe.com 💡 毒舌点评论文动机清晰，提出了一个当前领域内确实缺失的大规模多语言多情感强调检测基准。数据集MMEE的构建过程描述详尽，从语料收集到标注流程都显得相当专业。系统性的基准测试覆盖了单语、跨语言、多语言、跨情感、跨数据集和数据规模等多种场景，实验设计比较全面。然而，其核心贡献——MMEE数据集是专有的，未公开，这极大地限制了工作的可复现性和社区影响力，是一个重大缺陷。研究本身是“评估”而非“提出”新模型，技术深度有限。对音调语言（如中文）表现不佳的根本原因探讨不足，仅仅归因于声调系统显得有些草率。跨数据集泛化实验中，模型在不同数据集上性能差异的原因（如Whisper版本差异）分析可以更深入。整体而言，这是一篇扎实的“数据集与基准”论文，但未开源是其最大硬伤。 📌 核心摘要本文针对现有语音强调检测模型主要在中性朗读单语数据上训练和评估的问题，引入了MMEE数据集，并利用它对两个前沿模型（EmphaClass, WhiStress）进行了系统性的跨语言、跨情感泛化能力基准测试。核心发现包括：单语模型的跨语言零样本迁移能力有限，且随语言类型距离增加而下降；多语言联合训练显著提升了模型鲁棒性；模型能在高/低唤醒度情感间稳健迁移；人类感知标注与合成标注支持可迁移的表示学习。 🔗 开源详情代码：论文中未提供代码链接模型权重：论文中未提供模型权重链接数据集：MMEE数据集。论文明确指出其基于一个“专有的多语言情感语音语料库（proprietary multilingual expressive speech corpus）”构建，但未提供公开下载链接。 Demo：论文中未提及Demo 复现材料：论文未提供训练配置、检查点等复现所需材料的具体获取方式。论文中引用的开源项目：论文引用了以下项目作为技术组件，但未在文中提供具体链接： Qwen3-ASR：用于语音转录。 Silero-VAD：用于语音活动检测。 XLS-R (基于Wav2Vec 2.0)：作为EmphaClass模型的基础。 Whisper (包括whisper-small和whisper-small.en)：作为WhiStress模型的基础。 GPT-4o-mini和GPT-5.2：用于数据生成和质量检查（这些是OpenAI的商业模型）。项目主页：论文提供了一个项目主页链接：https://multilingual-speech-emphasis.github.io ，但该页面未提供数据集或代码的下载方式。 🏗️ 方法概述和架构本文的方法核心是构建MMEE数据集并利用其对现有模型进行基准测试，而非提出新的模型架构。 ...

From Black-Box to Clinical Insight: A Multi-Stage Explainable Framework for Speech-Based Cognitive Impairment Detection

📄 From Black-Box to Clinical Insight: A Multi-Stage Explainable Framework for Speech-Based Cognitive Impairment Detection #语音识别 #大语言模型 6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0/1.5 ✅ 6/10 | 前50% | #语音识别 | #大语言模型 | arxiv 👥 作者与机构作者：Yasaman Haghbin, Sina Rashidi, Ali Zolnour, Fatemeh Taherinezhad, Ali Fartoot, Hossein Azadmaleki, James M. Noble, Maryam Dadkhah, Maryam Zolnoori 机构：1 Independent Researcher, 2 Columbia University, United States, 3 Chalmers University of Technology, Sweden ...