自监督学习

CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection

📄 CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection #语音合成 #语音识别 #自监督学习 #低资源 #数据增强 6.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构作者：Yin-Long Liu, Yuanchao Li, Yiming Wang, Yue Li, Rui Feng, Jiaxin Chen, Shaobo Liu, Liu He, Yuang Chen, Jiahong Yuan, Zhen-Hua Ling 机构：中国科学技术大学，爱丁堡大学 ...

Do speech foundation models perceive speaker similarity as humans do?

📄 Do speech foundation models perceive speaker similarity as humans do? #说话人识别 #自监督学习 6.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0/0.5 | 工程 0/1.5 ✅ 6.3/10 | 前50% | #说话人识别 | #自监督学习 | arxiv 👥 作者与机构作者: Minoru Kishi, Hayato Yagi, Shinnosuke Takamichi, Yuki Saito 机构: Keio University, Japan; The University of Tokyo, Japan 💡 毒舌点评这篇论文试图回答一个有趣但根本性的问题：模型“看”到的说话人相似性，和我们人耳“听”到的是同一回事吗？研究规模值得肯定，43个模型拉出来遛遛，气魄不小。但问题是，方法论有点“糙”——用最简单的帧平均来提取说话人嵌入，这就像用一杯水的平均温度来判断整个海洋的生态多样性，忽略了太多动态和结构信息。回归分析也流于表面，列出几个宏观配置变量，结论基本是“编码器比解码器好”、“监督比自监督好”，这洞察力比模型界的常识强多少？更关键的是，作者自己都没提这项研究的局限性，这在顶会审稿人眼里可不算加分项。整篇工作更像一次大规模的“体检报告”，罗列了数据和相关性，但对“为什么”和“怎么改进”的深入手术刀还没动呢。 ...

Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs

📄 Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs #图神经网络 #自监督学习 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.6/10 | 前50% | #图神经网络 | #图神经网络 | #自监督学习 | arxiv 👥 作者与机构 Huu Tuong Tu (1), Hanh Nguyen (1), Thien Van Luong (2), Nguyen Tien Cuong (1), Vu Huan (1), Nguyen Thi Thu Trang (3) ...

F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation

📄 F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation #语音合成 #音频生成 #语音识别 #自监督学习 #多任务学习 7.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #自监督学习 | #音频生成 #语音识别 | arxiv 👥 作者与机构 Dinghao Zhou, Xingchen Song, Di Wu, Pengyu Cheng, Shengfan Shen, Sixiang Lv。第一作者单位为南京大学，第二作者单位为WeNet开源社区。论文标注作者贡献相等。 💡 毒舌点评这篇论文的工作量扎实，试图解决音频标记器在“理解”与“生成”目标间的固有矛盾，技术路线清晰。但“新颖性”的成色需要仔细考量，其核心组件（归一化瓶颈、RQ-MTP、流匹配头）均为已有技术的组合与适配，缺少原理层面的根本性突破。更令人皱眉的是，作为一篇顶会论文，在“开源”和“可复现性”上的表现堪称“裸奔”——不提供代码、模型权重或详细的训练配置，这让所有令人印象深刻的实验结果都成了“黑箱表演”，极大地削弱了其可验证性和社区贡献度。实验部分虽然全面，但在生成任务上与最新SOTA（如Qwen3-TTS、Ming-Omni系列）的比较略显取巧，Token Rate不统一且SIM分数缺失，难以进行公平对比。总体来说，这是一篇完成度不错、但“诚意”不足的“应用整合式”论文。 ...

M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition

📄 M2S-AVSR: Modality-aware Multi-view Self-supervised Representation for Robust Audio-Visual Speech Recognition #多模态模型 #自监督学习 #语音识别 #音视频 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9/10 | 前25% | #语音识别 | #自监督学习 | #多模态模型 #音视频 | arxiv 👥 作者与机构作者：Fei Su, Cancan Li, Ming Li, Juan Liu。机构：武汉大学人工智能学院与计算机科学学院；香港中文大学（深圳）人工智能学院；武汉大学人工智能学院。 💡 毒舌点评这篇论文工作扎实，动机明确，旨在解决真实世界AVSR中视角变化和模态退化的核心痛点。方法上，将多视角自监督学习（MVL编码器）与细粒度的模态感知融合（同时考虑质量和同步性）相结合，思路清晰且有新意。新发布的AISHELL8-RealScene数据集（室外、多视角）填补了部分空白，实验也较为全面。主要问题在于：1）部分实验对比可能受限于特定设置（如LLM基线未完全对齐训练数据规模），使得“最优”结论需谨慎解读；2）模态感知模块的计算开销和实际部署时的延迟未充分讨论；3）合成多视角数据的真实性和多样性可能限制MVL编码器的泛化上限。总体是一篇达到顶会门槛的工作，但部分细节的论证和工程实践考量有待加强。 📌 核心摘要本文提出了M2S-AVSR，一个用于鲁棒音视觉语音识别（AVSR）的模态感知多视角自监督表征框架。该框架针对真实场景下常见的视角变化、音频失真和视觉遮挡等问题，主要包含两个核心创新：1）一个多视角表征学习（MVL）编码器，通过结合真实与合成视角的多视角自监督学习策略，学习视角不变的视觉表征；2）一个模态感知融合机制，在解码时显式建模视觉模态质量与跨模态同步性，实现细粒度的自适应信息注入。此外，论文发布了新的公开数据集AISHELL8-RealScene，包含多场景（室内/室外）、多视角的真实世界对话数据，用于建立更贴近现实的基准。在LRS3、MISP2021-AVSR和AISHELL8-RealScene上的实验表明，M2S-AVSR在应对视角扰动和视觉退化时显著优于现有方法，并在MISP2021-AVSR测试集上取得了新的最先进性能。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：AISHELL8-RealScene。论文中明确声明该数据集公开可用，并提供了具体链接和开源协议。名称：AISHELL8-RealScene 获取链接：https://huggingface.co/datasets/SMIIP-lab/AISHELL8-RealScene 开源协议：CC BY-NC-SA 4.0 Demo：论文中未提及在线演示链接。复现材料：论文中未提及完整的复现配置包或检查点下载链接，但提供了详细的实验设置（如网络配置、学习率、批大小、GPU型号等）。论文中引用的开源项目： Whisper：OpenAI的开源语音识别模型。GitHub: https://github.com/openai/whisper；HuggingFace模型库: https://huggingface.co/openai/whisper-large-v3 AV-HuBERT：Facebook AI Research的音视频自监督表征学习模型。GitHub: https://github.com/facebookresearch/av_hubert LRS3：大规模的视听语音识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html VoxCeleb2：大规模的视听人物识别数据集。项目主页: https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html MISP2021-AVSR：多模态远场语音识别挑战赛数据集。项目主页: https://mispchallenge.github.io/ OuluVS2：多视角视听语音数据集。论文中未提供具体链接，但为已知公开数据集。 MUSAN：用于噪声增强的开源噪声数据集。论文中未提供具体链接，但为已知公开数据集。 WPE：加权预测误差法（盲解混响算法）。论文中未提供具体链接，但为已知公开工具。 GSS：引导源分离法。论文中未提供具体链接，但为已知公开工具。 ResNet-18：深度残差网络模型，广泛使用。论文中未提供具体链接，但为已知开源模型。 LLaMA：Meta的大语言模型系列。论文中未提供具体链接，但为已知开源模型。 Fun-ASR：阿里云达摩院的开源语音识别框架。GitHub: https://github.com/modelscope/FunASR FireRed-ASR：论文中提及为LLM-based ASR模型。论文中未提供具体链接。 Qwen3-ASR：论文中提及为LLM-based ASR模型。论文中未提供具体链接。 🏗️ 方法概述和架构 M2S-AVSR的整体框架如图2所示。其核心思想是分别从音频和视觉模态中提取鲁棒表征，并通过模态感知机制在解码器中进行融合。 ...

ProSarc: Prosody-Aware Sarcasm Recognition Framework via Temporal Prosodic Incongruity

📄 ProSarc: Prosody-Aware Sarcasm Recognition Framework via Temporal Prosodic Incongruity #语音情感识别 #自监督学习 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前25% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Prathamjyot Singh^1, Ashima Sood^2, Sahil Sharma^3, Jasmeet Singh^1 1 Department of Computer Science and Engineering, Thapar Institute of Engineering and Technology, Patiala, India 2 School of Computing, Engineering and Intelligent Systems, Ulster University, Londonderry, United Kingdom 3 School of Computing, Ulster University, Belfast, United Kingdom ...

USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding

📄 USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding #音频编码 #知识蒸馏 #自监督学习 #迁移学习 #多任务学习 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9/10 | 前25% | #音频编码 | #知识蒸馏 | #自监督学习 #迁移学习 | arxiv 👥 作者与机构作者：Heng-Jui Chang, Liu Bhati, Saurabhchand Athi, Mrudula Ratnarajah, Anton Chhetri, Amit Glass, James Glass 机构：MIT CSAIL, USA；Amazon, USA ...

Channel-Oriented Design for EEG-to-Music Reconstruction

📄 Channel-Oriented Design for EEG-to-Music Reconstruction #音乐信息检索 #音频生成 #自监督学习 #对比学习 #数据增强 7.7/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #音乐生成 | #自监督学习 | #音乐信息检索 #音频生成 | arxiv 👥 作者与机构 Jiaxin Qing (UC Berkeley)， Junwei Lu (Harvard University)， Lexin Li (UC Berkeley) 💡 毒舌点评这篇论文在脑机接口的细分赛道——EEG-to-Music重建上，精准地抓住了“通道信息早期混合”这个痛点，并提出了一个逻辑自洽、组件清晰的解决方案。理论分析虽简化，但为设计选择提供了合理的数学依据，比单纯喊口号强。实验部分，与当前SOTA基础模型的对比很到位，证明了专用设计优于通用预训练模型在特定任务上的表现。可解释性分析更是点睛之笔，将EEG的通道注意力与听觉处理脑区关联，提升了工作的可信度和价值。不过，其“对齐+固定生成器”的管道设计虽能隔离贡献，但也限制了对生成阶段优化潜力的探索。在通用性方面，模型对电极配置的固定依赖是一个明显的实用化短板。总的来说，这是一篇扎实、聚焦、有洞察力的工作，配得上顶会水准。 📌 核心摘要本文研究了从EEG信号重建音乐这一具有挑战性的任务。作者指出，现有方法中过早地混合通道信息会破坏EEG中微弱但有区分度的信号。为此，提出了一个“通道导向”的设计框架，其核心包含三个组件：通道级标记化（将每个电极视为独立标记以保留空间局部证据）、通道级多视图自蒸馏（强制模型在不同时间裁剪和随机通道子集之间保持一致性，以学习鲁棒且分布式的表示）和通道级数据增强（通过结构化的通道丢弃提高对噪声和缺失电极的不变性）。这些组件被集成到一个编码-对齐-解码的管道中。从理论上，论文分析了通道级遮蔽相比块级遮蔽在何种条件下能降低跨类重叠。在实验上，通过与多种基线方法（包括专门的EEG2Mel和通用的EEG基础模型LaBraM、EEGPT、CBraMod）进行系统对比，在语义重建（CLAP score 0.683）和嵌入级对齐（50-way 识别准确率0.487）指标上取得了最佳性能。消融研究验证了每个组件的贡献，可解释性分析揭示了与听觉处理相关的通道注意力模式。 ...

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

📄 DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities #多模态模型 #自监督学习 #数据集 #基准测试 9.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前25% | #多模态模型 | #自监督学习 | #数据集 #基准测试 | arxiv 👥 作者与机构 Sajad Ebrahimi, Nima Jamali, Bardia Shirsalimian, Kelly McConvey, Wentao Zhang, Jalehsadat Mahdavimoghaddam, Maksym Taranukhin, Maura Grossman, Vered Shwartz, Yuntian Deng, Ebrahim Bagheri University of Toronto, University of Waterloo, Toronto Metropolitan University, University of British Columbia, Vector Institute ...

SURF: Separation via Unsupervised Remixing Flow

📄 SURF: Separation via Unsupervised Remixing Flow #无监督学习 #生成模型 #自监督学习 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前25% | #无监督学习 | #自监督学习 | #生成模型 | arxiv 👥 作者与机构作者：Henry Li, Robin Scheibler, Efthymios Tzinis, Matt Shannon, Arnaud Doucet, John R. Hershey。机构：根据作者信息推断，该研究团队可能来自Google Research（基于论文作者常见背景和提供的demo页面域名）。论文本身未在提供的摘要中明确列出机构。 💡 毒舌点评这篇论文提出了一个看似诱人的无监督音频分离框架，利用“remixing”和流匹配这两个时下热门概念。理论联系Wake-Sleep算法是不错的尝试。然而，审稿人看到的是：1）实验部分严重“偷懒”，没有在更具挑战性或更通用的大规模音频数据集（如MUSDB18, LibriMix）上提供全面的对比和消融研究，使得“state-of-the-art”的宣称显得底气不足。2）“remixing”步骤严重依赖初始教师模型的质量，论文对此潜在缺陷的讨论轻描淡写。3）开源完全缺席，只有一个demo页面，这极大地阻碍了社区验证和方法的实际应用，对于一篇声称有实际应用价值的工作来说是重大扣分项。总体而言，这是一个想法不错但验证不充分、工程实践价值有限的早期工作。 📌 核心摘要 SURF旨在解决无监督单通道源分离问题，即从观测混合信号中恢复源信号，而无需对应的干净源数据。其核心思想是构建一个“教师-学生”自举学习框架。首先，一个教师模型对混合信号进行初步估计，生成伪干净源。接着，通过一个新颖的“remixing”步骤，将这些估计源重新混合，生成新的“伪混合-伪源”对，用于训练学生流模型。学生模型学习从噪声中生成源信号的分布，其训练目标被设计为最大化观测混合信号的似然，并与流匹配框架相结合。论文从理论上分析了该优化过程，并将其与经典的Wake-Sleep算法联系起来，为无监督生成式分离提供了新的视角。在图像（如CelebA）和音频（如WHDWH）基准上的实验显示，SURF优于其他无监督方法。 ...