自监督学习

AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification

📄 AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification #说话人识别 #多模态模型 #自监督学习 #数据增强 #语音识别 #计算机视觉 7.8/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.8/10 | 前25% | #说话人识别 | #自监督学习 | #多模态模型 #数据增强 | arxiv 👥 作者与机构论文作者为 Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, 和 Fei Huang。所有作者均隶属于 Honor Device Co., Ltd.，单位地点包括南京和上海。 ...

Child-Centric Voice Anonymization in Single and Multi-Speaker Speech via Domain-Adapted SSL Models

📄 Child-Centric Voice Anonymization in Single and Multi-Speaker Speech via Domain-Adapted SSL Models #语音匿名化 #自监督学习 7.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #语音匿名化 | #自监督学习 | arxiv 👥 作者与机构作者: Pranav Tushar (新加坡科技学院, 1), Xiao Xiao Miao (昆山杜克大学, 2), Rong Tong (新加坡科技学院, 1)。机构: 1 Singapore Institute of Technology, Singapore; 2 Duke Kunshan University, China。邮箱: tpranav2001@gmail.com, pranav.tushar@singaporetech.edu.sg, xiaoxiao.miao@dukekunshan.edu.cn, tong.rong@singaporetech.edu.sg。 💡 毒舌点评这篇论文做了一件正确且必要的事：把成人世界里玩得挺溜的语音匿名化技术，认真地适配到了常被忽视的儿童语音领域。思路清晰，实验也做得比较扎实，像个标准的好学生作业。但就像用一套精心设计的西装去改造一套儿童西装，虽然用了新的布料（领域自适应），但剪裁方法（SSL分解-替换-合成框架）本身并不新鲜。最大的亮点不是“发明了新衣服”，而是“证明了给孩子做衣服必须考虑孩子的身材”（儿童领域自适应的必要性），并且“试穿了不同场景”（多说话人）。然而，论文也坦诚地展示了当前工具的窘境——几乎所有评估工具都是给成人设计的，这使得论文报告的性能数字本身可能就带着“成人视角”的滤镜，是个需要读者自行脑补的局限。总体是一篇扎实、诚恳，但突破性有限的工作。 ...

Clustering Unsupervised Representations as Defense against Poisoning Attacks on Speech Commands Classification System

📄 Clustering Unsupervised Representations as Defense against Poisoning Attacks on Speech Commands Classification System #自监督学习 6.5/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构论文未在提供的正文中明确列出作者与机构信息。 💡 毒舌点评创新性深度不足，是“技术拼盘”而非“原创突破”：将DINO（一种成熟的无监督学习框架）与K-means聚类（一种基础算法）和LDA（一种经典的降维技术）进行组合，其创新点更偏向于工程上的有效集成，而非提出新的原理或算法。论文未能深入阐释为何DINO学习到的表示会对这类特定攻击（叠加触发器）敏感，这使得其贡献停留在“现象观察”层面，而非“机理解释”。实验设计存在明显短板，缺乏稳定性验证：所有实验均基于单一的训练/测试集划分，未报告多次随机划分下的结果方差或置信区间。唯一提及的方差计算（图5）仅针对过滤后残留少量中毒样本的场景，不足以证明整个防御流程在数据划分变动下的鲁棒性。这使得实验结论的普适性存疑。对失败案例的分析流于表面：论文承认对高音量触发器（50%音量）防御效果差（表3，第5行，ASR高达99.51%），但未提供任何深入分析。这是方法的关键局限，可能涉及表示空间的可分性边界、触发器特征淹没语音特征等根本性问题。缺乏此类分析，大大削弱了论文的深度和说服力。部分关键实验细节缺失或模糊： K-means的K值选择：主要实验固定K=1000，虽然进行了消融（图4），但未说明此选择的具体依据。对于包含11个类别、约8.5万样本的数据集，使用1000个簇是否必要或最优？图4显示在K=1000时性能已进入平台期，但更高K值下良性数据移除率仍在下降，最佳点的选择标准不明。 DINO训练细节：训练使用的工具包未公开，训练稳定性（如不同随机种子的影响）未评估。与基线的对比存在“稻草人”嫌疑：虽然对比了图像领域的激活聚类和谱签名防御，但论文仅给出一种猜测性解释（“添加噪声” vs “像素补丁”差异）而未设计针对性实验验证。这种对比缺乏公平性和洞察力，更像是为了展示“现有方法失效”而非探索根本原因。可复现性近乎为零：论文明确表示核心代码（DINO工具包）要到终稿才公开，模型权重未提供。这严重影响了该工作的可复现性和社区验证，是重大扣分项。 📌 核心摘要本文针对语音命令分类系统面临的脏标签后门中毒攻击，提出了一种基于无监督表示聚类的过滤防御方法。核心流程为：首先，使用DINO自监督模型在被污染的训练集上学习无监督表示；然后，对这些表示进行K-means聚类，并可选地通过线性判别分析（LDA）投影后进行二次聚类以提升效果；最后，在每个聚类内，仅保留占多数标签的样本，过滤掉少数标签的样本。实验在Google Speech Commands数据集上进行，面对10%中毒比例的基准攻击，该方法能将攻击成功率从99.75%降至0.25%（使用LDA），同时分类准确率维持在91.37%。在系统评估的多种攻击变体（包括不同源/目标类、触发器类型、音量、位置）下，方法通常能移除超过97%的中毒样本，同时良性数据移除率通常低于8%。若假设仅有一个目标类，良性数据移除率可进一步降至0.5%以下。论文将此方法与完美过滤、随机过滤、激活聚类及谱签名防御等基线进行了对比，显示了优越性。然而，该方法对高音量触发器（如50%音量）防御效果较差。 🔗 开源详情代码：论文中明确表示代码将在最终版本（camera-ready paper）中公开，当前版本未提供任何代码链接或仓库。模型权重：论文中未提供预训练的DINO模型权重或受害者模型权重。数据集：Google’s Speech Commands dataset (v0.02)。获取链接：https://storage.googleapis.com/download.tensorflow.org/data/speech_commands_v0.02.tar.gz。 Demo：论文中未提及。复现材料：论文中未提供用于复现的训练配置文件、检查点或补充材料。论文中引用的开源项目： Armory：用于评估ML系统鲁棒性的工具包。GitHub仓库链接：https://github.com/twosixlabs/armory。论文指出其实验装置基于此工具包实现。 DINO：论文使用的方法。引用了原始DINO论文及其语音版本，但未提供具体代码链接。原始DINO代码通常可在以下仓库找到：https://github.com/facebookresearch/dino，但论文文本中未给出此链接。 🏗️ 方法概述和架构本文提出的防御方法（图2）旨在从被污染的训练集中检测并移除脏标签中毒样本，其核心思想是利用无监督学习获取数据的内在表示，再通过聚类和多数投票机制来识别与标签不一致的样本。整个流程是数据过滤式的，不修改最终分类模型的训练方式。具体包含以下关键组件和步骤： ...

OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL

📄 OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL #自监督学习 #生成对抗网络 #语音增强 #语音分离 #语音转换 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1.2/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #生成对抗网络 #语音增强 | arxiv 👥 作者与机构作者：Karl El Hajal (Idiap Research Institute, Switzerland; EPFL, Switzerland), Mathew Magimai.-Doss (Idiap Research Institute, Switzerland) 机构：Idiap Research Institute（瑞士），洛桑联邦理工学院（EPFL，瑞士） ...

SIGMA: Saliency-Guided Sparse Mask Attacks for Speech Emotion Recognition

📄 SIGMA: Saliency-Guided Sparse Mask Attacks for Speech Emotion Recognition #语音情感识别 #自监督学习 7.1/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Qiyang Sun: Imperial College London, GLAM, Department of Computing Yi Chang（通讯作者）: Imperial College London, GLAM, Department of Computing; email: yichang312@gmail.com Zixing Zhang: Hunan University, College of Computer Science and Electronic Engineering; Shenzhen Research Institute, Hunan University Björn W. Schuller: Imperial College London, GLAM, Department of Computing; Technical University of Munich (CHI – Chair of Health Informatics, relAI, MDSI, MCML) ...

VeRe-Flow: Guiding Flow Matching toward Clean Speech via Velocity Contrastive Regularization and Representation Alignment for Noise-Robust Bandwidth Expansion

📄 VeRe-Flow: Guiding Flow Matching toward Clean Speech via Velocity Contrastive Regularization and Representation Alignment for Noise-Robust Bandwidth Expansion #语音增强 #流匹配 #自监督学习 #正则化微调 #生成模型 #鲁棒性 7.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.7/10 | 前25% | #语音增强 | #自监督学习 | #流匹配 #正则化微调 | arxiv 👥 作者与机构作者：Sujin Koo, Sangyoon Kim, Ji Sub Um, Hoirin Kim。机构：MAGO（韩国）和KAIST（韩国）。 ...

wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2

📄 wav2VOT: Automatic estimation of voice onset time, closure duration, and burst realisation with wav2vec2 #自监督学习 #低资源 #迁移学习 8.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 1.5/1.5 | 开源 0.9/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #低资源 #迁移学习 | arxiv 👥 作者与机构 James Tanner (1,2), Morgan Sonderegger (2), Jane Stuart-Smith (1), Tyler Kendall (3), Jeff Mielke (4) 1 University of Glasgow, United Kingdom 2 McGill University, Canada 3 University of Oregon, United States 4 North Carolina State University, United States ...

A Survey of Automated Presentation Coaching: Systems, Methods, and Open Challenges

📄 A Survey of Automated Presentation Coaching: Systems, Methods, and Open Challenges #语音识别 #语音合成 #自监督学习 #多模态模型 #多任务学习 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.7/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.3/1.5 📝 5.4/10 | 后50% | #语音识别 | #自监督学习 | #语音合成 #多模态模型 | arxiv 👥 作者与机构 Wen Liang: Columbia University, Red Hat Li Siyan: Columbia University Zackary Rackauckas: RoleGaku Julia Hirschberg: Columbia University 💡 毒舌点评这篇综述试图为“自动化演讲辅导”这个看似细分但实际横跨多个热门领域的课题（CAPT、TTS、L2语言学习）建立一个清晰的分类法和研究路线图。其野心值得肯定，但执行上仍有改进空间。 ...

Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings

📄 Advancing Speaker-Based Vocal Effort Classification with WavLM and Data Augmentation in Naturalistic Non-Calibrated Speech Recordings #语音增强 #自监督学习 #低资源 #数据增强 6.8/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.8/10 | 前50% | #语音增强 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构论文作者来自University of Texas at Dallas (UTDallas)，由J.H.L. Hansen教授支持。 💡 毒舌点评这篇论文的“首次”宣称需要打折扣。虽然WavLM用于语音努力分类确实是新尝试，但整体架构是标准的微调预训练模型加数据增强和损失函数改进，创新点更多是工程上的组合与验证，而非方法论上的根本突破。论文最大的问题在于实验规模过小：仅在单一、非校准的AVID数据集（约1万条样本）上进行验证，这使得“新SOTA”的宣称说服力有限，模型在更复杂、更真实场景下的泛化能力完全未知。作者提出的“高斯邻居软标签”听起来很新颖，但其核心思想（建模标签连续性）与已有的标签平滑、序数回归等方法思想相通，论文未能充分论证其相比这些成熟方法的显著优势。此外，论文开源信息为零，极大阻碍了科学验证和后续研究。整体而言，这是一篇扎实的“应用性”工作，但距离顶会所要求的“开创性”贡献还有明显差距。 📌 核心摘要本文首次将WavLM自监督模型应用于自然的非校准语音录音的语音努力分类任务。通过系统性地研究和结合多种波形级数据增强策略（如RIR卷积、噪声添加、时间掩码、速度扰动、限带）以及混合级增强（MixUp， CutMix），并创新性地提出高斯邻居软标签以建模语音努力的连续性，有效缓解了标注数据稀缺和相邻类别混淆的问题。在AVID语料库的10折交叉验证中，最佳系统（WavLM-BASE + 渐进式解冻 + MixUp + 高斯邻居软标签）达到了78.22%的平均准确率，相较于之前的基线方法有所提升。 ...

Do Speech Emphasis Models Generalize across Languages and Emotions?

📄 Do Speech Emphasis Models Generalize across Languages and Emotions? #语音识别 #自监督学习 #迁移学习 #多语言 #数据增强 7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前25% | #语音识别 | #自监督学习 | #迁移学习 #多语言 | arxiv 👥 作者与机构 1 Adobe Research, USA 2 Brown University, USA meganwei@brown.edu, aneja@adobe.com, jsu@adobe.com, yunyunw@adobe.com, haonanc@adobe.com, zejin@adobe.com 💡 毒舌点评论文动机清晰，提出了一个当前领域内确实缺失的大规模多语言多情感强调检测基准。数据集MMEE的构建过程描述详尽，从语料收集到标注流程都显得相当专业。系统性的基准测试覆盖了单语、跨语言、多语言、跨情感、跨数据集和数据规模等多种场景，实验设计比较全面。然而，其核心贡献——MMEE数据集是专有的，未公开，这极大地限制了工作的可复现性和社区影响力，是一个重大缺陷。研究本身是“评估”而非“提出”新模型，技术深度有限。对音调语言（如中文）表现不佳的根本原因探讨不足，仅仅归因于声调系统显得有些草率。跨数据集泛化实验中，模型在不同数据集上性能差异的原因（如Whisper版本差异）分析可以更深入。整体而言，这是一篇扎实的“数据集与基准”论文，但未开源是其最大硬伤。 📌 核心摘要本文针对现有语音强调检测模型主要在中性朗读单语数据上训练和评估的问题，引入了MMEE数据集，并利用它对两个前沿模型（EmphaClass, WhiStress）进行了系统性的跨语言、跨情感泛化能力基准测试。核心发现包括：单语模型的跨语言零样本迁移能力有限，且随语言类型距离增加而下降；多语言联合训练显著提升了模型鲁棒性；模型能在高/低唤醒度情感间稳健迁移；人类感知标注与合成标注支持可迁移的表示学习。 🔗 开源详情代码：论文中未提供代码链接模型权重：论文中未提供模型权重链接数据集：MMEE数据集。论文明确指出其基于一个“专有的多语言情感语音语料库（proprietary multilingual expressive speech corpus）”构建，但未提供公开下载链接。 Demo：论文中未提及Demo 复现材料：论文未提供训练配置、检查点等复现所需材料的具体获取方式。论文中引用的开源项目：论文引用了以下项目作为技术组件，但未在文中提供具体链接： Qwen3-ASR：用于语音转录。 Silero-VAD：用于语音活动检测。 XLS-R (基于Wav2Vec 2.0)：作为EmphaClass模型的基础。 Whisper (包括whisper-small和whisper-small.en)：作为WhiStress模型的基础。 GPT-4o-mini和GPT-5.2：用于数据生成和质量检查（这些是OpenAI的商业模型）。项目主页：论文提供了一个项目主页链接：https://multilingual-speech-emphasis.github.io ，但该页面未提供数据集或代码的下载方式。 🏗️ 方法概述和架构本文的方法核心是构建MMEE数据集并利用其对现有模型进行基准测试，而非提出新的模型架构。 ...