LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish

📄 LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish #语音合成 #语音识别 #自监督学习 #低资源 #基准测试 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构 Nina Hosseini-Kivanani Sandipana Dowerah 💡 毒舌点评 这篇论文好在选题切中要害——低资源语言+表达性语音+真实场景数据,确实是块缺肉的骨头。LuxEmo语料库的构建和公开(附带采样链接)是实打实的贡献,工作流描述也算清楚。但“严苛审稿人”视角下,槽点不少:语料库就4位主播,还来自同一个青年节目,说能代表“卢森堡语”有点勉强,作者自己也承认了,但评审意见应更尖锐地指出这直接限制了论文声称的“系统性评估”的普适性上限。情绪分布那“0.5%的愤怒”简直是个事故级数据倾斜,论文仅在结论提一句,审稿人应该追问这如何影响了模型训练与评估的有效性,以及基准测试结论在多大程度上是“可泛化的”。评估方面,20人主观听测且无显著性检验,置信区间大幅重叠,这个“基准”的排名可靠性打个大问号。论文反复强调代码混合是挑战,但分析部分却没拿出任何细粒度的分析(比如混合段vs纯语种段的WER对比),这属于典型的“提了但没分析”,深度不足。另外,像情绪检测分类器的训练数据、置信度阈值选取这些影响复现的关键细节一笔带过,不够“严谨”。总的来说,是一篇合格的资源发布和基准测试论文,但离顶会要求的深度分析和严谨论证还有距离,其影响力主要局限在资源本身,而非方法论或深刻洞察。 📌 核心摘要 本文介绍了LuxEmo,一个用于卢森堡语的表达性语音语料库和TTS基准测试集。该语料库包含从RTL青年广播档案中通过半自动工作流提取的21小时自发语音,标注了语言、说话人身份和四种情绪(中性、快乐、悲伤、愤怒)。作者在LuxEmo上评估了五种TTS系统,涵盖跨语言迁移、多语言支持和卢森堡语适配等方案。主要发现包括:没有单一TTS系统在所有评估维度(音频质量、可懂度、韵律、说话人相似度、情感自然度)上最优;目标语言适配在部分指标上有效但非全面;基于ASR的客观可懂度与人类主观感知的自然度、情感表现存在差异。论文同时指出了语料库在说话人覆盖、情绪分布均衡性以及评估统计显著性方面的局限性。 🔗 开源详情 代码:论文中未提供代码链接。 模型权重:论文中未提供模型权重链接。 数据集:LuxEmo语料库。论文中未提供公开获取链接,但提供了语料库采样链接:https://anonymous.4open.science/r/LuxEmo_Sample-445F/。 Demo:论文中未提及。 复现材料:论文中未提供完整的训练配置、检查点或附录,但提及了数据划分使用的固定随机种子为42。 论文中引用的开源项目:论文中提及了以下项目,但未提供具体链接。 DeepFilterNet [32] NISQA v2.0 [24] DNSMOS [30] LuxASR [9, 26, 35] Wav2Vec2-based mms-lid-4017 model [27] Whisper [28] SpeechBrain ECAPA-TDNN [29] pYIN [21] Sequitur G2P (用于LuxEmo): https://github.com/PeterGilles/sequitur-g2p German gruut (用于EmoDB比较): https://github.com/sequitur-g2p/sequitur-g2p 🏗️ 方法概述和架构 本文的方法可分为两大核心部分:LuxEmo语料库构建和TTS基准测试评估。 ...

2026-07-01 · 更新于 2026-07-03 · 2 min · 376 words

Tone-Conditioned Curriculum Learning for Low-Resource Bantu Speech Recognition

📄 Tone-Conditioned Curriculum Learning for Low-Resource Bantu Speech Recognition #语音识别 #低资源 #课程学习 7.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.3/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #课程学习 | arxiv 👥 作者与机构 Kesego Mokgosi (d23126641@mytudublin.ie), Vukosi Marivate, Sitwala Mundia, Unarine Netshifhefhe, Tsholofelo Hope Mogale, Thapelo Sindane 1 Technological University Dublin, Ireland 2 Data Science for Social Impact, University of Pretoria, South Africa 3 Lelapa AI ...

2026-07-01 · 更新于 2026-07-03 · 3 min · 598 words

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分 前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分 前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分 前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分 前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分 前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分 前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分 前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分 前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分 前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分 前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分 前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分 前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分 前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分 前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分 前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分 前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分 前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分 前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分 前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分 前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分 前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分 前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分 前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分 前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分 前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分 前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分 前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分 前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分 前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分 前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分 前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分 前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分 后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分 后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分 后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-01 · 更新于 2026-07-03 · 20 min · 4207 words

GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark

📄 GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark #语音识别 #语音翻译 #低资源 #口音识别 8.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前50% | #语音识别 | #语音翻译 | #低资源 #口音识别 | arxiv 👥 作者与机构 Yujie Tu1,2,8,9, Yifan Yang1, Tianrui Wang4, Yanqiao Zhu1, Guodong Lin5, Mingchen Shao6, Haoran Wang1, Junzhe Liu1, Yuxiang Fu5, Yizhou Peng7, Changsong Liu7, Peng Wang11, Zhikang Niu1, Yunchong Xiao3, Haolong Zheng10, Xiuwen Zheng10, Xulin Fan10, Wei-Qiang Zhang5,16, Lei Xie6,15, Longbiao Wang4, Eng-Siong Chng7, Jiajun Zhang8,9, Kele Xu13, Jianwei Yu3, Binbin Zhang3,15, Jiayu Du16, Wupeng Wang3, Zhigao Chen3, Yunlong Wu3, Guoguo Chen14,16, Xipeng Qiu2,12, Mark Hasegawa-Johnson10, Kai Yu1, Zhifu Gao3, Xiangang Li3, Xie Chen1,2,16 机构: 1.SJTU, 2.SII, 3.Alibaba, 4.TJU, 5.THU, 6.ASLP@NPU, 7.NTU, 8.CASIA, 9.UCAS, 10.UIUC, 11.CUHK-SZ, 12.FDU, 13.CCSE, 14.Seasalt.ai, 15.WeNet, 16.SpeechColab ...

2026-06-30 · 更新于 2026-07-03 · 4 min · 723 words

wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2

📄 wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2 #自监督学习 #低资源 #迁移学习 8.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 1.5/1.5 | 开源 0.9/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #低资源 #迁移学习 | arxiv 👥 作者与机构 James Tanner (1,2), Morgan Sonderegger (2), Jane Stuart-Smith (1), Tyler Kendall (3), Jeff Mielke (4) 1 University of Glasgow, United Kingdom 2 McGill University, Canada 3 University of Oregon, United States 4 North Carolina State University, United States ...

2026-06-30 · 更新于 2026-07-03 · 2 min · 239 words

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分 前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分 前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分 前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分 前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分 前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分 前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分 前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分 前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分 前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分 前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分 前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分 前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分 前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分 前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分 前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分 前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分 前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分 前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分 前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分 前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分 前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分 前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分 前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分 前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分 前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分 前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分 前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分 前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分 后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分 前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分 前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分 前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分 前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分 后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分 后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-30 · 更新于 2026-07-03 · 22 min · 4475 words

Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings

📄 Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings #语音增强 #自监督学习 #低资源 #数据增强 6.8/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.8/10 | 前50% | #语音增强 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构 论文作者来自University of Texas at Dallas (UTDallas),由J.H.L. Hansen教授支持。 💡 毒舌点评 这篇论文的“首次”宣称需要打折扣。虽然WavLM用于语音努力分类确实是新尝试,但整体架构是标准的微调预训练模型加数据增强和损失函数改进,创新点更多是工程上的组合与验证,而非方法论上的根本突破。论文最大的问题在于实验规模过小:仅在单一、非校准的AVID数据集(约1万条样本)上进行验证,这使得“新SOTA”的宣称说服力有限,模型在更复杂、更真实场景下的泛化能力完全未知。作者提出的“高斯邻居软标签”听起来很新颖,但其核心思想(建模标签连续性)与已有的标签平滑、序数回归等方法思想相通,论文未能充分论证其相比这些成熟方法的显著优势。此外,论文开源信息为零,极大阻碍了科学验证和后续研究。整体而言,这是一篇扎实的“应用性”工作,但距离顶会所要求的“开创性”贡献还有明显差距。 📌 核心摘要 本文首次将WavLM自监督模型应用于自然的非校准语音录音的语音努力分类任务。通过系统性地研究和结合多种波形级数据增强策略(如RIR卷积、噪声添加、时间掩码、速度扰动、限带)以及混合级增强(MixUp, CutMix),并创新性地提出高斯邻居软标签以建模语音努力的连续性,有效缓解了标注数据稀缺和相邻类别混淆的问题。在AVID语料库的10折交叉验证中,最佳系统(WavLM-BASE + 渐进式解冻 + MixUp + 高斯邻居软标签)达到了78.22%的平均准确率,相较于之前的基线方法有所提升。 ...

2026-06-29 · 更新于 2026-07-03 · 2 min · 276 words

语音/音乐/音频论文速递 2026-06-29

语音/音乐/音频论文速递 2026-06-29 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音合成 2篇 ██ #说话人识别 2篇 ██ #语音质量评估 1篇 █ #数据增强 1篇 █ #语音情感识别 1篇 █ #多模态模型 1篇 █ #语音增强 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Screening Matters: A Comparative Study of Conventional 8.4分 前25% #语音质量评估 🥈 From General-Purpose Audio Tagging to Spatially Grounde 8.3分 前50% #数据增强 🥉 HPRO: Hierarchical Progressive Reward Optimization via 8.2分 前50% #语音合成 4. Learning from Annotation Uncertainty: Entropy-Aware Cur 7.4分 前50% #语音情感识别 5. MER-R1: Multimodal Emotion Reasoning via Slow-Fast Thin 7.4分 前25% #多模态模型 6. A Comparison of Fusion Techniques for Multi-Modal Human 7.3分 前50% - 7. Do Speech Emphasis Models Generalize across Languages a 7.0分 前25% #语音识别 8. Advancing Speaker-Based Vocal Effort Classification wit 6.8分 前50% #语音增强 9. HybridCodec: Modeling Discrete and Continuous Represent 6.5分 前50% #语音合成 10. Grammar-Guided Hierarchical Parsing for Long-form Audio 6.2分 前50% #音频事件检测 11. Room for Error: Large-Scale Simulation of Over-the-Air 6.2分 前50% #语音识别 12. What Was That Again? Certified Robustness for Automatic 6.2分 前50% - 13. Dialogue to Detection: A Multimodal Hybrid NLP Pipeline 6.0分 后50% #说话人识别 14. From Black-Box to Clinical Insight: A Multi-Stage Expla 6.0分 前50% #语音识别 15. DG^VoiC: Speaker Clustering for Fraud Investigation und 5.7分 前50% #说话人识别 16. A Survey of Automated Presentation Coaching: Systems, M 5.4分 后50% #语音识别 📋 论文列表 🥇 Screening Matters: A Comparative Study of Conventional and Crowdsourced Listening Tests 8.4/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-29 · 更新于 2026-07-03 · 9 min · 1914 words

Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

📄 Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean #语音合成 #参数高效微调 #低资源 #扩散模型 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6/10 | 后50% | #语音合成 | #参数高效微调 | #低资源 #扩散模型 | arxiv 👥 作者与机构 Phannet Pov, Sovandara Chhoun, Hyun Woo Park, Wan-Sup Cho, Saksonita Khoeurn 机构:柬埔寨数字研究与创新研究所、韩国相关机构(论文未明确列出具体机构全称) ...

2026-06-26 · 更新于 2026-07-03 · 2 min · 351 words

Low Resource Multimodal Translation of Nepali Spoken Words into Emotion-Conditioned Sign Language Avatars

📄 Low Resource Multimodal Translation of Nepali Spoken Words into Emotion-Conditioned Sign Language Avatars #语音识别 #低资源 #数据增强 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 📝 5.3/10 | 后50% | #语音识别 | #数据增强 | #低资源 | arxiv 👥 作者与机构 作者:Jatin Bhusal, Salma Tamang 机构:Center for Human Mobility and Communications, Prateek Innovations, Kathmandu, Nepal; Sunway International Business School, Birmingham City University, Kathmandu, Nepal ...

2026-06-26 · 更新于 2026-07-03 · 3 min · 551 words