语音领域 | 语音/音频论文速递

📄 Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean #语音情感识别 #对比学习 #数据集 #端到端 #语音领域 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Hyunjung Joo（罗格斯大学语言学系，汉阳大学语言语音与认知科学研究所 (HIPCS)）通讯作者：GyeongTaek Lee（嘉泉大学智能工厂系）其他作者：无 💡 毒舌点评亮点：论文最大的贡献是“造轮子”和“用好轮子”——亲手标注了一个超万个样本的首尔韩语音高数据集，并聪明地用全局对比学习替换了容易“只见树木不见森林”的局部预测模型，让AI学会看音高的“整体轮廓”而非“逐点猜谜”。槽点：虽然准确率刷到了新高，但F1分数才刚过50%，暴露了数据集中某些音调模式样本极少导致的严重类别不平衡问题；另外，模型只盯着F0（音高）看，完全忽略了时长、强度等对韵律同样重要的线索，像个只用单眼看世界的学者。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/hyunjungjoo/Accentual-Phrases-in-Seoul-Korean。模型权重：论文中未明确提及是否公开预训练权重。数据集：已开源。即上述GitHub仓库中提供的首尔韩语音调短语数据集，包含10,093个样本及其标注。预训练权重：未提及。在线Demo：未提及。依赖的开源工具/模型：论文中提到了使用pYIN算法提取F0，以及PyTorch、scikit-learn、LightGBM等框架和库。 📌 核心摘要这篇论文旨在解决将连续变化的基频（F0）曲线映射到首尔韩语中离散、不变的音高重音类别（如LHLH, HHLH）这一难题。传统方法易受F0测量噪声和说话人差异的影响。为此，作者提出了Dual-Glob，一个深度监督对比学习框架。其核心是通过一个双分支（干净视图和增强视图）编码器，在共享的潜在空间中强制要求同一音高类别样本的全局F0轮廓形状相似，而不同类别则相异，从而学习到对扰动鲁棒的、具有判别性的音高轮廓表征。作者还构建了首个大规模手动标注的基准数据集，包含10,093个音调短语（AP），涵盖16种音调模式。实验表明，Dual-Glob在准确率（77.75%）和F1分数（51.54%）上显著超越了BiLSTM、InceptionTime等强基线。研究支持了音系学理论中的离散音调范畴，并证明深度对比学习能有效捕捉连续F0轮廓的整体结构特征。局限性包括F0追踪误差、数据类别不平衡以及未整合时长等其他韵律线索。 🏗️ 模型架构模型整体是一个双分支编码器+投影头的对比学习框架，后接一个冻结的编码器和独立的分类器用于下游任务。完整输入输出流程：输入：经过预处理和归一化（说话人级别Min-Max归一化到[0,1]）的F0轮廓序列，固定长度为200帧。数据增强：对原始输入（干净视图 x_c）应用随机组合的数据增强（如抖动、缩放、掩码等），生成增强视图 x_a。编码与投影：x_c 和 x_a 分别通过共享权重的编码器 E(·) 和投影头 P(·)，得到潜在空间中的投影向量 z_c 和 z_a。对比损失计算：基于 z_c 和 z_a 计算联合损失 ℒ_Total = λ1 * ℒ_Clean + λ2 * ℒ_Aug。 ℒ_Clean：确保同一类别干净样本的投影在潜在空间中彼此靠近。 ℒ_Aug：确保增强样本的投影靠近其对应类别的干净样本投影，实现去噪和鲁棒性学习。下游分类：训练完成后，冻结编码器 E(·)，移除投影头。使用编码器从原始干净输入中提取的特征（而非投影），输入到独立的分类器（如逻辑回归LR、随机森林RF、LightGBM）中进行16分类。主要组件： ...