自监督学习

ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

📄 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning #自监督学习 #低资源 #语音识别 #语音情感识别 #说话人验证 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #语音情感识别 | arxiv 👥 作者与机构作者：Khanh Le, Kiet Anh Ha, Bao Duy Le, Dung Thai, Linh Khoa Tran, D Doan 机构：VinUniversity, Vietnam; UNEY, Switzerland ...

A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification

📄 A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification #自监督学习 #对比学习 #低资源 #多语言 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前50% | #自监督学习 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构 Agneedh Basu1, Pavan Kumar J1, Sujith P1, Visruth Sanka1, Nihar Desai1, Prasanta Kumar Ghosh2 ...

A Comparison of SSL-Based Feature Extractors and Back-End Classifiers for Spoofing Detection: A Multi-Corpus Training and Cross-Linguistic Analysis

📄 A Comparison of SSL-Based Feature Extractors and Back-End Classifiers for Spoofing Detection: A Multi-Corpus Training and Cross-Linguistic Analysis #自监督学习 #数据增强 5/10 | 创新 0.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.3/1 | 影响 0.3/1.5 | 开源 0.1/1.5 | 复现 0.2/0.5 | 工程 1.4/1.5 📝 5/10 | 后50% | #自监督学习 | #自监督学习 | #数据增强 | arxiv 👥 作者与机构作者：Anh-Tuan Dao, Driss Matrouf, Mickael Rouvier, Nicholas Evans 机构： Laboratoire Informatique d’Avignon, Avignon Université, Avignon, France EURECOM, Sophia Antipolis, France 💡 毒舌点评这篇论文的工作非常“工程化”和“组合式”，像一个针对特定任务（语音反欺骗）的SSL+后端分类器的大规模消融实验。其核心贡献并非提出全新的方法，而是通过详尽的对比实验验证了两个相对符合直觉的结论：（1）多语料库训练可能因领域偏差而失效；（2）引入少量目标语言数据有助于跨语言泛化。然而，这种“比较研究”的深度有限：它没有深入分析为何ResNet的局部特征提取在这种特定场景下优于注意力机制，也没有提供应对“领域偏差”的实质性方案，仅仅停留在“观察现象”层面。创新性不足，且所有结论都严重依赖于所选的四个SSL模型和四个后端分类器，普适性存疑。 ...

BareWave: Waveform-Native Flow-Matching Text-to-Speech

📄 BareWave: Waveform-Native Flow-Matching Text-to-Speech #语音合成 #音频生成 #自监督学习 7.0/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1.4/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 1.0/0.5 | 工程 1.2/1.5 ✅ 7.0/10 | 前50% | #语音合成 | #Transformer | #音频生成 #自监督学习 | arxiv 👥 作者与机构 Wei Fan1*, Chao-Hong Tan2†, Qian Chen2†, Wen Wang2, Xiangang Li2, Kejiang Chen1†, Weiming Zhang1, Nenghai Yu1. 1安徽大学，数字安全安徽省重点实验室；2阿里巴巴通义实验室 (Tongyi Fun Team, Alibaba Group)。(*工作在Wei Fan于阿里巴巴通义实验室实习期间完成；†通讯作者)。 ...

HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis

📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis #语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院) ...

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

📄 Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention #自监督学习 #多模态模型 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前50% | #自监督学习 | #自监督学习 | #多模态模型 | arxiv 👥 作者与机构 George Theodosiou†, Loukas Ilias†, Dimitris Askounis (†共同第一作者) 决策支持系统实验室，电气与计算机工程学院，雅典国立技术大学，雅典，希腊 💡 毒舌点评这篇文章试图用“多视图”和“注意力”这些热门词汇包装一个相当直白的任务：在单个数据集上分类帕金森语音。作者将三种特征（频谱图、MFCC、HuBERT）拼接后用注意力加权，声称这是“新颖”的融合。其核心创新——上下文引导的跨模态注意力——本质上是一种特征级的交叉注意力，其“上下文”来自另外两个分支的全局向量，设计上并不复杂。实验仅限于PC-GITA这一个公开数据集，虽然报告了较高的分数，但在未进行任何外部验证的情况下，其宣称的“临床可靠性”显得有些空中楼阁。消融实验是亮点，但基线选择相对陈旧（如[19], [21]），且与最新的基础模型方法对比时，提升幅度有限（约6%）。最大的硬伤是完全未开源代码和模型，这使得所有复现承诺成为空谈，也严重削弱了其在社区中的实际价值。总体而言，这是一篇工程整合度较高、但理论创新有限、且未能提供足够验证的临床应用论文。 📌 核心摘要本文针对帕金森病（PD）的语音检测任务，提出了一种多分支深度学习框架。该框架摒弃了依赖单一语音表征的惯例，同时从同一段语音中提取三种互补的表征：1) 由ResNet-18编码器处理的Log-Mel频谱图，2) 由双向LSTM网络建模的MFCC序列，3) 由预训练HuBERT基础模型提取的原始波形嵌入。为有效融合这些异构表征，论文引入了上下文引导的跨模态注意力机制，该机制利用来自频谱图和MFCC分支的全局声学上下文，动态加权时序HuBERT嵌入中的相关部分。在西班牙语PC-GITA数据集上的严格说话人独立五折交叉验证实验表明，该框架取得了优异性能（准确率91.51%， F1分数91.24%， AUROC 95.97%），并通过一系列消融研究验证了所提注意力机制和多表征集成的有效性。 ...

Probing Token Spaces under Generator Shift in AI-Generated Music Detection

📄 Probing Token Spaces under Generator Shift in AI-Generated Music Detection #自监督学习 #音频编码 #对比学习 9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9/10 | 前10% | #音频编码 | #自监督学习 | #对比学习 | arxiv 👥 作者与机构作者：Joonyong Park, Jungwoo Kim, Junyoung Koh, Yuki Saito。论文中未明确说明作者所属的具体机构。 💡 毒舌点评这篇论文像一份精心设计的实验报告，而非一篇突破性的研究。其最大的亮点在于实验设计的“控制变量”思想——用一个固定的CoMoE分类器来孤立Token空间的影响，这确实是一个聪明的实验设置。然而，这恰恰也暴露了其核心弱点：论文本质上是在验证一个相对直觉性的假设（即不同的音频表示会影响检测器的泛化能力），并提供了一个实验框架。其最大的问题在于“为什么”层面的解释极其匮乏。我们观察到X-Codec在Udio上好，MERT在Suno上好，但论文对此提供的解释几乎为零。是Token的离散化粒度？是训练数据的重叠？是音频编解码器的重建特性？作者只停留在现象描述。此外，CoMoE的四流设计动机略显模糊，特别是对不同Token空间（如EnCodec的8层RVQ）进行截取的规则（q=0,1 vs q=6,7）是否公平且最优，并未给出令人信服的讨论。整篇论文感觉是在用复杂的实验设置来包装一个简单的核心观点，理论深度和机制创新是其明显的短板。 📌 核心摘要本文研究了AI生成音乐检测器在面对生成器偏移（即处理训练时未见过的生成器输出）时的鲁棒性问题。为公平评估不同音频表示（Token空间）的影响，作者提出了CoMoE（Codec-Mixture-of-Experts），一个固定的四流探测分类器。通过在MoM-open（一个使用FMA和MTG-Jamendo真实音频、并保留原MoM-CLAM生成器协议的开源数据集）上进行源受限评估，研究发现标准评估已饱和，而虚假音频源受限评估能有效区分不同Token空间的迁移性能。核心结论是，在生成器偏移条件下，音频Token空间（如EnCodec、DAC、X-Codec、MERT离散化单元）的选择本身应成为一个关键的实验变量。 🔗 开源详情代码：https://github.com/MAAP-LAB/CoMoE （论文明确提供）模型权重： EnCodec 24 kHz: https://huggingface.co/facebook/encodec_24khz （论文明确提供） DAC 44 kHz: https://github.com/descriptinc/descript-audio-codec （论文明确提供） X-Codec mini: https://huggingface.co/m-a-p/xcodec_mini_infer （论文明确提供） MERT-v0-public: https://huggingface.co/m-a-p/MERT-v0-public （论文明确提供）数据集： MoM-open：论文构建的数据集，基于FMA-medium和MTG-Jamendo。具体获取链接未在论文中直接给出，但与代码仓库（https://github.com/MAAP-LAB/CoMoE）关联。真实音频原始数据集：FMA (https://github.com/mdeff/fma)， MTG-Jamendo (https://github.com/MTG/mtg-jamendo-dataset)。 Demo：未提及。复现材料：论文提供了训练配置（12 epochs, AdamW, lr=2e-4, label smoothing 0.05, seed 42, single H100 GPU），代码仓库应包含相关脚本。论文中引用的开源项目：DiffRhythm (https://github.com/AIFSH/DiffRhythm)， Riffusion (https://github.com/riffusion/riffusion)， YuE (https://github.com/yue-genesis/yue)。 🏗️ 方法概述和架构本文提出的核心方法是CoMoE，一个用于公平比较异质离散音频Token空间的固定分类器探针。其设计原则是：保持下游分类器架构、训练流程和评估协议完全一致，仅替换输入的Token空间，从而将性能差异完全归因于Token表示本身。 ...

Assessing True Generalisability of Audio-Visual Speech Recognisers

📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构作者：Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构：1 Trinity College Dublin, Ireland；2 Imperial College London, UK 💡 毒舌点评这篇论文根本不是在发明一个“更好”的AVSR模型，而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文，却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”，但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法（构建严格分布匹配的MV2LRS3集），得出了一个令人尴尬的结论：我们引以为傲的AVSR模型，在离开精心维护的LRS3温室后，表现得一塌糊涂。多模态融合不仅没帮忙，反而成了拖累。最讽刺的是，论文名为“评估真实泛化能力”，但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头，用来审视自己工作的实际意义，而不是仅仅在LRS3刷榜。 ...

Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition

📄 Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition #语音情感识别 #自监督学习 7.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前50% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Li Qian Song, Shuanglin (可能)，来自1. 湘江实验室 (Xiangjiang Laboratory)，长沙，中国；2. 埃克塞特大学 (University of Exeter)，埃克塞特，英国。联系邮箱为：slay575@163.com, ruxiaoqian@gmail.com, s.song@exeter.ac.uk。 💡 毒舌点评这篇论文试图用微分几何的华丽外衣，给一个相对直白的统计操作（在子空间上计算协方差矩阵并取对数）正名。动机（一阶聚合丢失相关性）是合理的，但论述中将“协方差矩阵在欧氏空间操作”上升到“几何失真”、“伪熵”的高度，显得过于理论化，有点把简单问题复杂化的嫌疑。实验上，虽然在两个标准数据集上超越了基础池化基线，但对比的基线集显得陈旧且单一（没有与近期任何二阶聚合方法如Bilinear Pooling，或其他几何方法如Log-Det Pooling对比），使得“有效性”的宣称大打折扣。最遗憾的是，作为一篇强调计算效率（避免维度爆炸）的论文，居然完全不提供SOC层与基线的计算开销对比，这在注重实用的顶会审稿人眼里是很大的减分项。作者声称SOC是“drop-in module”，却不展示其插入后的整体效率变化，说服力不足。 📌 核心摘要本文针对自监督语音识别（SSL）表征在聚合为整段描述符时丢失特征间高阶相关性的问题，提出了第二阶相关（SOC）层。SOC层首先通过一个可学习的线性层将高维SSL特征投影到一个紧凑的低维子空间，在此子空间中计算特征的协方差矩阵，将其建模为对称正定（SPD）流形上的描述符。随后，通过Log-Euclidean映射（LEM）将协方差矩阵映射到欧几里得切空间，并进行半向量化以供下游分类器使用。在ESD和RAVDESS两个数据集上的实验表明，SOC在多个冻结SSL主干网络上均优于全局平均池化（GAP）、全局标准差池化（ASP）和帧感知池化（FA）等一阶基线方法。 ...

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

📄 HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec #语音合成 #自监督学习 #语音生成 5.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.7/10 | 前50% | #语音合成 | #自监督学习 | #语音生成 | arxiv 👥 作者与机构作者：Arjun Gangwar, Umesh S 机构：Indian Institute of Technology, Madras, India 邮箱：arjungangwar@gmail.com, umeshs@ee.iitm.ac.in 💡 毒舌点评这篇文章的核心想法，即将两个已有的范式（双流架构和语义蒸馏）进行“统一”，其创新性相当有限，更像是一个工程上的组合。论文最大的卖点在于“推理时不需SSL模型”的速度提升，但这本质上是用训练时的蒸馏损失换取了推理时的复杂性降低，技术路径并不新颖。实验部分，所有模型均仅在LibriSpeech上训练，这在评估跨语言和零样本能力时说服力大打折扣——模型只是在同一个英语数据集上见过足够多数据后，碰巧能更好地处理相似分布的英语语音而已。论文声称实现了“强大的语义-声学解耦”，但除了一个RVQ-1 WER指标外，缺乏任何更直接、更严谨的解耦度量来支撑这一核心主张。此外，完全不提供代码，极大地阻碍了结果的可验证性和社区的后续研究。 📌 核心摘要针对多模态大语言模型中语音离散化的需求，现有神经音频编解码器存在语义解耦强但推理慢（如DualCodec）或推理快但解耦弱（如DAC蒸馏变体）的权衡。本文提出HybridCodec，一种结合了双流架构与语义蒸馏的统一模型。其训练时利用冻结的SSL模型（w2v-BERT-2.0）对语义流进行知识蒸馏，推理时则移除该重型SSL模型。实验表明，HybridCodec在域内（LibriSpeech）测试集上取得了最优的RVQ-1 WER（15.36%），相比DualCodec实现了约3倍的推理加速，同时在跨语言和零样本场景下保持了竞争力的重建质量和泛化能力。 🔗 开源详情代码：论文中未提及代码链接，未开源。模型权重：论文中未提及模型权重的公开获取链接，未开源。数据集：论文使用了三个公开数据集：LibriSpeech（960小时，需重采样至24kHz）、SeedTTS-en（论文引用[Anastassiou2024SeedTTSAF]）和Common Voice French（从测试集随机采样1000条）。论文未提供SeedTTS-en等的具体下载链接。 Demo：论文中未提及。复现材料：论文提供了详细的模型架构（图1）、训练配置（数据集、音频处理、优化步骤、损失函数权重等）以及评估细节。未提供预训练检查点或复现脚本。表3中“open-source checkpoints”指的是对比的基线模型（Mimi, DualCodec）的原始开源检查点，而非本文HybridCodec的检查点。论文中引用的开源项目（均为引用参考，非本文提供）： DualCodec：作为基线对比，引用自[dualcodec]。 DAC (Distill)：作为基线对比，基于[DAC]。 Mimi：作为开源模型对比，引用自[moshi]。 w2v-BERT-2.0：用作SSL特征提取器，引用自[w2v-bert-2.0]。 Whisper v3-large：用于WER评估，引用自[radford2022whisper]。 ECAPA-TDNN：用于SSIM评估，属于SpeechBrain工具包，引用自[ECAPA-TDNN]。 UTMOS：用于感知质量评估，引用自[UTMOS]。 PESQ：标准化评估指标，论文未指明具体实现来源。 ConvNeXt Block：用于模型架构，引用自[convnext]。 🏗️ 方法概述和架构 HybridCodec的核心设计是联合优化一个共享的编码器-解码器和两个并行的处理分支（语义流与声学流），并通过蒸馏引入SSL知识，最终实现在不依赖推理时SSL模型的前提下获得良好的语义-声学解耦。 ...