📄 OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL

#自监督学习 #生成对抗网络 #语音增强 #语音分离 #语音转换

7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1.2/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5

👥 作者与机构

作者：Karl El Hajal (Idiap Research Institute, Switzerland; EPFL, Switzerland), Mathew Magimai.-Doss (Idiap Research Institute, Switzerland) 机构：Idiap Research Institute（瑞士），洛桑联邦理工学院（EPFL，瑞士）

💡 毒舌点评

这篇工作动机清晰，试图在语音SSL中同时兼顾“理解”与“生成”，这个方向本身很有价值。联合训练框架OLIVE的设计——用合成目标保早期特征，用分析目标塑后期表示——想法直觉上合理，且有消融实验支持。然而，论文的“卖点”和实际验证之间存在一些张力。最大的硬伤在于，声称的“在生成和说话人任务上的提升”主要依赖于SUPERB这个冻结特征评估基准。在真正的生成任务（如TTS、VC）的端到端系统里，这种表示的优越性未经检验。波形重建的评估很全面，但它是独立训练的HiFi-GAN，而非联合预训练时的集成声码器（后者性能有差距），这削弱了“联合优化带来更好表示”的说服力。此外，所有实验仅限于LibriSpeech和Base规模，这是一个显著的弱点，论文也承认了。整体而言，这是一篇扎实的阶段性工作，证明了分析-合成联合训练在基线设置下的可行性，但离颠覆现有SSL范式或在实际生成应用中证明其优越性还有距离。

📌 核心摘要

本文提出了OLIVE（Online Latent prediction with Invariant Views and rEconstruction），一个联合优化分析与合成目标的自监督语音表示学习框架。其核心在于一个功能分离的设计：1）分析分支，通过带有独立波形增强的视图，采用掩码潜在预测（基于data2vec 2.0的师生蒸馏）来学习对增强具有不变性的上下文表示；2）合成分支，通过训练一个HiFi-GAN声码器，从共享编码器的早期局部特征（而非后期上下文特征）重建原始波形。该设计旨在让早期特征保留声学细节以支持重建，而让后期特征专注于判别性任务。在LibriSpeech预训练后，OLIVE在SUPERB基准上，在保持识别和语义任务竞争力的同时，提升了说话人识别和语音生成类任务的表现，并显著改善了波形重建的客观指标。

🔗 开源详情

代码：论文中声明代码将在论文发表后公开提供，但未提供具体的GitHub仓库链接。基础框架实现于fairseq，链接为 https://github.com/facebookresearch/fairseq。下游评估工具使用了S3PRL，链接为 https://github.com/s3prl/s3prl。
模型权重：论文中声明模型权重将在论文发表后公开提供，但未提供具体的HuggingFace/ModelScope链接。
数据集：预训练数据为 LibriSpeech 960小时无标签训练集，可通过开源语音资源库获取，链接为 https://www.openslr.org/12。
Demo：论文中未提及在线演示链接。
复现材料：论文提供了详细的训练配置（见正文第4节及附录表5）、模型参数明细（附录表6）、消融实验设置（附录B）及模型检查点（将在发表后提供），但当前未提供具体的检查点下载链接。
论文中引用的开源项目：
- fairseq: https://github.com/facebookresearch/fairseq (实现框架)
- S3PRL: https://github.com/s3prl/s3prl (下游评估基准库)
- SUPERB Benchmark: https://superb.llm超级性能基准测试项目 (评估基准)
- HiFi-GAN (V2): https://github.com/jik876/hifi-gan (波形重建模块使用的声码器架构)
- wav2vec 2.0: https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec (引用模型)
- HuBERT: https://github.com/facebookresearch/fairseq/tree/main/examples/hubert (引用模型)
- WavLM: https://github.com/microsoft/unilm/tree/master/wavlm (引用模型)
- data2vec / data2vec 2.0: https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec (引用模型)
- LibriSpeech 数据集: https://www.openslr.org/12 (引用数据集)

🏗️ 方法概述和架构

OLIVE框架的整体架构如图1所示，旨在通过联合优化分析与合成两个自监督任务来学习语音表示。其核心组件与数据流如下：

输入与视图生成：
- 输入原始波形 \(x\)。
- 通过两个独立的随机增强函数 \(a^{\prime}\) 和 \(a^{\prime\prime}\) 生成两个视图：学生视图 \(x^{\prime}=a^{\prime}(x)\) 和教师视图 \(x^{\prime\prime}=a^{\prime\prime}(x)\)。增强家族定义了表示需要变得不变的属性（如环境、增益）。
共享编码器：
- 局部特征提取器（\(e_{\theta}\) 或 \(e_{\bar{\theta}}\)）：一个7层的一维卷积网络，处理原始波形，步长为320个样本（16kHz下20ms），输出局部特征序列 \(r_{1:T}\)（或 \(\bar{r}_{1:T}\)）。该模块在学生和教师网络之间共享。
- 位置编码器：一个5层的卷积网络，为局部特征添加位置信息。
- 上下文编码器（\(f_{\theta}\) 或 \(f_{\bar{\theta}}\)）：一个12层的Transformer，将经过掩码（分析分支中）或未掩码的局部特征编码为上下文表示 \(h_{1:T}\)（或 \(\bar{h}_{1:T}\)）。
分析分支（View-Augmented Masked Distillation）：
- 掩码：对学生视图 \(x^{\prime}\) 提取的局部特征 \(r_{1:T}^{\prime}\) 应用掩码操作 \(m(\cdot)\)（逆块掩码，掩码比例0.5）。
- 学生预测：学生网络处理掩码后的局部特征，输出上下文表示 \(h_{1:T}^{\prime}=f_{\theta}(m(r_{1:T}^{\prime}))\)。一个预测头 \(p_{\theta}\) 基于此表示进行预测。
- 教师目标：教师网络处理未掩码的视图 \(x^{\prime\prime}\)，输出上下文表示 \(\bar{h}_{1:T}^{\prime\prime}=f_{\bar{\theta}}(\bar{r}_{1:T}^{\prime\prime})\)。目标 \(z_{t}^{\prime\prime}\) 通过对教师网络顶部 \(K=8\) 层的输出进行实例归一化后平均得到。
- 损失：学生在掩码位置 \(\mathcal{M}\) 上，以均方误差（MSE）预测教师目标：\(\mathcal{L}_{\mathrm{analysis}}=\frac{1}{|\mathcal{M}|}\sum_{t\in\mathcal{M}}\left\|p_{\theta}(h^{\prime}_{t})-\mathrm{sg}(z^{\prime\prime}_{t})\right\|_{2}^{2}\cdot d^{-1/2}\)。教师参数通过指数滑动平均（EMA）从学生参数更新。
合成分支（Waveform Reconstruction）：
- 条件输入：使用来自学生视图 \(x^{\prime}\) 的未掩码局部特征序列 \(r_{1:T}^{\prime}\) 作为条件。
- 生成器：一个HiFi-GAN V2声码器生成器 \(G_{\psi}\)，其输入是局部特征，输出重建波形 \(\hat{x}^{\prime}\)。生成器的架构修改为以OLIVE编码器表示替代常用的梅尔频谱图。
- 判别器：包含多周期判别器（MPD）和多尺度判别器（MSD），用于区分真实波形 \(x^{\prime}\) 和生成波形 \(\hat{x}^{\prime}\)。
- 合成损失：生成器的总损失 \(\mathcal{L}^{G}_{\mathrm{synthesis}}\) 是对抗损失 \(\mathcal{L}_{\mathrm{gen}}\)、特征匹配损失 \(\mathcal{L}_{\mathrm{fm}}\) 和梅尔频谱图重构损失 \(\mathcal{L}_{\mathrm{mel}}\) 的加权和：\(\mathcal{L}^{G}_{\mathrm{synthesis}} = \mathcal{L}_{\mathrm{gen}} + \lambda_{\mathrm{fm}}\mathcal{L}_{\mathrm{fm}} + \lambda_{\mathrm{mel}}\mathcal{L}_{\mathrm{mel}}\)。判别器的损失为 \(\mathcal{L}_{\mathrm{disc}}\)。
联合优化：
- 最终损失是分析损失与加权合成损失的联合：\(\mathcal{L}_{\mathrm{OLIVE}}=\mathcal{L}_{\mathrm{analysis}}+\lambda_{\mathrm{synthesis}}\mathcal{L}^{G}_{\mathrm{synthesis}}\)。权重 \(\lambda_{\mathrm{synthesis}}\)（设为25）平衡两个目标。
- 该损失更新学生编码器、预测头和生成器参数。判别器参数独立更新。教师通过EMA更新。
- 功能分离：合成分支约束早期局部特征保留信号级信息用于重建；分析分支的掩码预测目标则塑造后期上下文表示以获得不变性，用于判别任务。这种设计被假设为兼顾了生成与判别能力。
下游使用与波形重建评估：
- 预训练后，丢弃判别器。对于下游任务，使用冻结的OLIVE编码器提取各层表示，在SUPERB基准上评估。
- 对于波形重建评估，有两种设置：a) 集成声码器：直接使用预训练时联合训练的生成器 \(G_{\psi}\)，条件为OLIVE编码器的局部特征。b) 独立训练声码器：为所有基线（mel-spec, wav2vec 2.0, HuBERT, WavLM, data2vec, data2vec 2.0）和OLIVE变体单独训练一个相同架构的HiFi-GAN V2声码器，条件为各自冻结的局部特征，以公平比较表示质量。

![图2](data:image/svg+xml;base64,PHN2ZyBpZD0iUzQuRjIuMS5waWMxIiBjbGFzcz0ibHR4X3BpY3R1cmUiIGhlaWdodD0iMjc0Lj…[truncated 51008 chars]…)

💡 核心创新点

框架创新：提出了一个在单一自监督预训练阶段联合优化分析（表示学习）与合成（波形重建）目标的统一框架OLIVE，有别于将合成作为下游微调任务的先前工作。
设计创新：明确提出并验证了一种功能分离的设计原则：将波形重建任务施加于编码器的早期局部特征，而将上下文不变性塑造任务（掩码预测）施加于后期Transformer特征。这种设计旨在让不同层级的特征服务于不同的最终用途。
效果验证：实验表明，这种联合训练和功能分离的设计，在保持主流识别和语义任务竞争力的前提下，确实提升了说话人相关任务和生成类任务（SE, SS, VC）的性能，并显著改善了波形重建的客观指标。

📊 实验结果

SUPERB下游任务评估 (冻结表示) 主要结果展示在表1和表2中。OLIVE各变体与Base规模的主流SSL基线进行了对比。

表1：SUPERB下游结果 - 内容、说话人、副语言与语义任务

模型	参数量	PR (PER↓)	ASR (WER↓)	KS (Acc.↑)	QbE (MTWV↑)	SID (Acc.↑)	ASV (EER↓)	SD (DER↓)	ER (Acc.↑)	IC (Acc.↑)	SF (F1↑)	ST (CER↓)
FBANK	–	82.1	23.1	8.3	0.0043	0.1	10.7	11.3	28.4	4.6	63.0	59.5
wav2vec 2.0 Base	95.04M	6.4	6.5	96.0	0.0634	66.5	5.8	6.6	62.5	92.6	87.0	26.5
HuBERT Base	94.70M	5.8	6.4	96.4	0.0748	67.3	5.6	6.2	65.1	98.2	88.0	25.1
WavLM Base	94.38M	5.6	6.2	97.0	0.0813	62.3	5.8	5.4	64.9	98.5	89.0	24.2
data2vec Base	93.16M	3.8	5.0	95.9	0.0609	54.9	7.0	7.0	65.4	98.6	89.0	23.4
data2vec 2.0 Base	93.16M	4.6	4.8	96.8	0.0556	45.5	5.5	6.3	63.9	99.0	89.0	23.4
OLIVE-A (Mix)	93.16M	6.4	6.4	97.0	0.0390	66.9	6.0	4.6	67.1	99.1	88.0	25.2
OLIVE-A (Mix+Gain)	93.16M	5.2	6.1	97.3	0.0459	63.0	5.5	4.3	67.8	98.9	88.0	24.4
OLIVE-J	93.16M	6.3	6.4	97.3	0.0445	83.1	5.8	4.6	64.6	98.1	88.0	25.8

表2：SUPERB下游结果 - 生成任务与整体得分

模型	SE (PESQ↑)	SE (STOI↑)	SS (SI-SDRi↑)	VC (MCD↓)	VC (WER↓)	VC (ASV↑)	Overall (SUPERBs↑)	Overall (WavLMs↑)
FBANK	2.83	94.3	9.2	8.21	41.40	87.0	0	34.2
wav2vec 2.0 Base	2.92	94.8	10.3	7.50	11.30	97.8	797	65.5
HuBERT Base	3.00	94.9	9.9	7.48	10.90	98.0	838	66.5
WavLM Base	2.99	94.9	10.8	7.44	8.95	98.2	876	66.6
data2vec Base	2.94	94.8	9.9	7.08	9.65	99.5	807	65.9
data2vec 2.0 Base	2.96	94.9	10.4	7.28	10.40	99.5	837	65.3
OLIVE-A (Mix)	3.05	95.2	12.2	7.71	12.20	95.5	886	66.7
OLIVE-A (Mix+Gain)	3.06	95.2	12.2	7.59	12.10	96.2	911	66.8
OLIVE-J	3.10	95.1	12.3	7.61	11.60	98.2	909	67.6

关键结论：

竞争力：OLIVE-J在识别类任务（ASR, PR）和语义任务（IC, SF, ST）上与最强基线（如WavLM）保持竞争力。
提升：在说话人任务（SID, ASV）和生成任务（SE, SS, VC）上取得显著提升。特别是SID准确率（83.1%）远超所有基线。
聚合指标：OLIVE-A (Mix+Gain)获得最佳SUPERBs分数（911），OLIVE-J获得最佳WavLMs分数（67.6）。

波形重建评估评估了在冻结特征条件下训练独立HiFi-GAN V2声码器，以及使用OLIVE-J集成声码器的性能。结果见表3和表4。

表3：波形重建评估 - 频谱与音高指标 (LibriSpeech test-clean)

模型	Mel-L1↓	MCD↓	LSD↓	F0 MAE (Hz)↓
Mel Spectrogram	0.677 ± 0.004	6.24 ± 0.03	0.829 ± 0.005	14.4 ± 0.3
wav2vec 2.0 Base	0.474 ± 0.003	5.18 ± 0.03	0.604 ± 0.004	11.6 ± 0.3
HuBERT Base	0.475 ± 0.002	5.05 ± 0.02	0.604 ± 0.003	13.3 ± 0.3
WavLM Base	0.470 ± 0.002	5.01 ± 0.02	0.599 ± 0.003	13.1 ± 0.3
data2vec Base	0.467 ± 0.002	4.90 ± 0.02	0.594 ± 0.003	12.8 ± 0.3
data2vec 2.0 Base	0.434 ± 0.002	4.78 ± 0.02	0.558 ± 0.003	13.0 ± 0.3
OLIVE-A (Mix+Gain)	0.446 ± 0.002	4.69 ± 0.02	0.566 ± 0.003	11.6 ± 0.2
OLIVE-J (集成声码器)	0.579 ± 0.003	4.56 ± 0.02	0.688 ± 0.003	10.0 ± 0.2
OLIVE-J (冻结特征)	0.421 ± 0.002	4.35 ± 0.02	0.528 ± 0.002	9.6 ± 0.2

表4：波形重建评估 - 可懂度、感知与信号级指标 (LibriSpeech test-clean)

模型	STOI↑	PESQ↑	ViSQOL↑	SI-SDR↑	SNR↑	UTMOS↑
Reference audio	1.000	4.09 ± 0.01	4.44 ± 0.01	100.00 ± 0.00	31.95 ± 0.15	3.95 ± 0.01
Mel Spectrogram	0.833 ± 0.001	1.42 ± 0.01	3.59 ± 0.01	-18.02 ± 0.15	-2.60 ± 0.02	2.98 ± 0.02
wav2vec 2.0 Base	0.912 ± 0.001	2.19 ± 0.01	4.04 ± 0.01	-7.53 ± 0.21	-0.42 ± 0.06	3.58 ± 0.02
HuBERT Base	0.914 ± 0.001	2.11 ± 0.01	4.05 ± 0.01	-11.78 ± 0.17	-1.57 ± 0.04	3.63 ± 0.02
WavLM Base	0.917 ± 0.001	2.21 ± 0.01	4.05 ± 0.01	-10.93 ± 0.20	-1.31 ± 0.04	3.68 ± 0.02
data2vec Base	0.902 ± 0.001	2.10 ± 0.01	4.06 ± 0.01	-10.64 ± 0.21	-1.15 ± 0.04	3.50 ± 0.02
data2vec 2.0 Base	0.917 ± 0.001	2.21 ± 0.01	4.10 ± 0.01	-9.67 ± 0.18	-1.11 ± 0.04	3.63 ± 0.02
OLIVE-A (Mix+Gain)	0.929 ± 0.001	2.62 ± 0.01	4.18 ± 0.01	-3.36 ± 0.18	1.06 ± 0.08	3.70 ± 0.02
OLIVE-J (集成声码器)	0.921 ± 0.001	2.88 ± 0.02	4.21 ± 0.01	2.50 ± 0.14	4.25 ± 0.09	3.78 ± 0.02
OLIVE-J (冻结特征)	0.942 ± 0.001	3.06 ± 0.01	4.34 ± 0.01	2.94 ± 0.16	4.69 ± 0.10	3.83 ± 0.02

关键结论：

表示质量：使用冻结OLIVE-J特征训练的独立声码器（“OLIVE-J (冻结特征)”）在几乎所有指标上均达到最优，表明联合优化使编码器表示保留了更丰富的声学重建信息。
集成声码器性能：预训练时联合训练的声码器（“OLIVE-J (集成声码器)”）在感知（PESQ, UTMOS）和信号级（SI-SDR, SNR）指标上表现优秀，但在精确频谱匹配（Mel-L1, LSD）上略逊于独立训练的声码器，可能受联合训练目标平衡的影响。
分析-only基线：OLIVE-A (Mix+Gain)也显著优于所有分析-only SSL基线，说明波形增强也有助于保留重建信息。

消融实验 (选摘)

联合损失权重 (\(\lambda_{\mathrm{synthesis}}\)) 消融 (表7, 8)：权重25在下游任务和重建质量间提供了最佳平衡。权重50虽略微提升部分重建指标，但损害了多个下游任务性能。
声码器条件层消融 (表10)：无论对于OLIVE变体还是WavLM，使用局部编码器特征作为声码器条件时，重建质量最佳。随着条件层深入（Transformer层1-5），重建质量持续下降。这为“功能分离”设计提供了实证支持。
声码器训练数据增强消融 (表11)：在独立声码器训练中使用波形mixup增强，显著提升了所有重建指标。

🔬 细节详述

评分理由
- 创新性 (1.5/2)：联合分析-合成的框架本身是语音SSL中的一个自然且有价值的探索方向。功能分离（早期特征保重建，后期特征塑不变）的设计思路新颖且有实验依据。然而，这种“联合”与“分离”的范式在计算机视觉等领域已有先例（如某些VQ-VAE或生成模型），并非完全独创。
- 技术严谨性 (1.2/1.5)：方法描述清晰，损失函数、网络架构和训练细节（如EMA、掩码策略）阐述详尽。消融实验充分，尤其是条件层消融强有力地支持了核心设计选择。但理论分析缺失，对“为什么这种联合优化能导致功能分离且有效”缺乏更深的解释。集成声码器与独立声码器性能的差距原因未深入探讨。
- 实验充分性 (1.3/1.5)：在SUPERB基准和波形重建任务上进行了全面评估。消融实验设计合理（权重、条件层、数据增强）。主要缺陷在于实验范围：仅限于LibriSpeech数据集和Base模型规模。缺乏与更大规模模型（如WavLM Large）的比较，也未在更复杂的生成任务（如端到端TTS、VC）中验证表示的有效性。
- 清晰度 (1.2/1.5)：论文结构清晰，从动机到方法到实验逻辑连贯。图表（图1架构图，图2雷达图）有助于理解。公式书写规范。但部分技术细节分散在正文和附录中（如具体的掩码策略参数、EMA初始值），需要跳转阅读。
- 影响力 (1.3/1.5)：为语音SSL如何整合生成能力提供了一个可行的框架和设计思路。对推动“全能型”语音基础模型的研究有积极意义。但由于实验局限性，其对社区的实际影响力受限，可能主要启发后续在更大规模和更广泛任务上的探索。
- 开源 (0.2/1.5)：论文明确承诺发布代码和模型权重（“Code and model weights will be made publicly available upon publication”），但当前（arXiv阶段）未提供任何可访问的链接。这严重影响了可复现性和对社区的即时贡献。提供的唯一链接是基础框架fairseq和评估库S3PRL的官方仓库。
- 可复现性 (0.3/1.5)：尽管论文提供了详细的架构配置（附录表5, 6）、消融设置和部分基线结果，但由于核心代码、预训练模型权重以及某些基线检查点的缺失，完全复现论文所有结果（尤其是主实验和波形重建评估）是困难的。可复现性评级为“较低”。
- 工程/实践价值 (0.8/1.5)：OLIVE框架基于成熟的fairseq和HiFi-GAN实现，工程上具有可行性。其设计允许在单个预训练阶段获得兼具分析能力和合成能力的表示，对资源受限场景（希望一个模型多用）可能有吸引力。但Base规模的性能是否足以说服实践者抛弃更成熟的纯分析型SSL模型（如WavLM）并转向此框架，尚存疑问。
局限与问题
1. 评估局限性：所有下游评估均使用SUPERB基准，这是一个冻结特征评估协议。这无法证明OLIVE表示在微调场景下的优势，而微调是许多实际应用（如定制ASR、TTS）的主流范式。
2. 规模缺失：研究仅限于Base规模（~94M参数）。现代强力SSL模型（如WavLM Large）参数量数倍于此。OLIVE的设计在更大规模下是否依然有效、收益是否放大或衰减，是未知的。
3. 数据单一性：仅在LibriSpeech（朗读英语）上预训练。模型在嘈杂环境、多语言、对话语音上的泛化能力未经验证。数据增强（mixup, gain）可能不足以模拟所有真实的声学变化。
4. 生成任务验证不充分：声称提升生成任务（SE, SS, VC），但评估仍是基于冻结特征的独立下游模型。并未展示在端到端生成系统（如直接使用OLIVE进行语音增强或语音转换）中，其联合训练的表示或集成声码器是否优于先用分析型SSL预训练、再用HiFi-GAN微调的两阶段流水线。
5. 集成声码器的差距：预训练时联合训练的集成声码器，在精确频谱重建指标上不如后期用冻结特征独立训练的声码器。这表明联合优化时，分析目标和合成目标之间可能存在一定的目标冲突或优化不充分，论文对此缺乏深入分析。
6. 过度解读“竞争力”：在ASR等核心任务上，OLIVE-J的表现虽“竞争力”，但通常略逊于最优的分析-only基线（如data2vec 2.0）。将“未显著下降”直接等同于“竞争力”，在追求SOTA的社区语境下可能稍显主观。
7. 缺乏与同期相关工作的直接对比：论文将自身与data2vec-SG和UniWav进行对比时，因后者无公开模型而仅引用其论文数据。这种间接对比削弱了结论的说服力。

开源详情

代码：论文中声明代码将在论文发表后公开提供，但未提供具体的GitHub仓库链接。基础框架实现于fairseq，链接为 https://github.com/facebookresearch/fairseq。下游评估工具使用了S3PRL，链接为 https://github.com/s3prl/s3prl。
模型权重：论文中声明模型权重将在论文发表后公开提供，但未提供具体的HuggingFace/ModelScope链接。
数据集：预训练数据为 LibriSpeech 960小时无标签训练集，可通过开源语音资源库获取，链接为 https://www.openslr.org/12。
Demo：论文中未提及在线演示链接。
复现材料：论文提供了详细的训练配置（见正文第4节及附录表5）、模型参数明细（附录表6）、消融实验设置（附录B）及模型检查点（将在发表后提供），但当前未提供具体的检查点下载链接。
论文中引用的开源项目：
- fairseq: https://github.com/facebookresearch/fairseq (实现框架)
- S3PRL: https://github.com/s3prl/s3prl (下游评估基准库)
- SUPERB Benchmark: https://superb.llm超级性能基准测试项目 (评估基准)
- HiFi-GAN (V2): https://github.com/jik876/hifi-gan (波形重建模块使用的声码器架构)
- wav2vec 2.0: https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec (引用模型)
- HuBERT: https://github.com/facebookresearch/fairseq/tree/main/examples/hubert (引用模型)
- WavLM: https://github.com/microsoft/unilm/tree/master/wavlm (引用模型)
- data2vec / data2vec 2.0: https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec (引用模型)
- LibriSpeech 数据集: https://www.openslr.org/12 (引用数据集)

📷 论文图片

← 返回 2026-06-30 语音/音乐/音频论文速递

📄 OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

开源详情#

📷 论文图片#

📎 相关论文