On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation
📄 On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation #知识蒸馏 #自监督学习 #统一音频模型 #音频理解 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Changhao Cheng (上海交通大学,人工智能学院) 通讯作者:Yanmin Qian (上海交通大学,人工智能学院;听觉认知与计算声学实验室,教育部人工智能重点实验室) (推断,基于其资深作者身份及实验室负责人角色) 其他作者: Wei Wang (上海交通大学,人工智能学院) Wangyou Zhang (上海交通大学,计算机科学学院,听觉认知与计算声学实验室,教育部人工智能重点实验室) Dongya Jia (上海交通大学,人工智能学院) Jian Wu (字节跳动 Seed) Zhuo Chen (上海交通大学,人工智能学院) 💡 毒舌点评 亮点在于它像一个严谨的“调音师”,系统性地探索了语音VAE蒸馏损失的“调音旋钮”(时间轴、维度轴、联合边际),并找到了让重建、理解、生成这三个“声部”和谐共奏的新配方(JMAS-VAE)。槽点则是这“新配方”的调制过程有点复杂,引入的自适应权重和边际参数增加了训���和调参的“玄学”成分,且实验结论高度依赖于所选的教师模型(WavLM),换一个“老师”可能结论又得重写。 📌 核心摘要 本文针对现有语音变分自编码器(VAE)在统一语音重建、理解和生成任务上表现不平衡的问题(尤其是理解能力差),系统性地研究了蒸馏损失函数的设计空间。作者探索了三种将自监督学习(SSL)模型知识蒸馏到VAE潜在空间的方式:时间轴对齐(TAS)、维度轴对齐(DAS)和联合边际对齐(JMAS)。关键创新在于提出了JMAS损失,它不仅进行逐帧对齐,还通过边际余弦相似度和边际距离序列相似度损失来约束特征分布的结构一致性。此外,论文引入了基于梯度范数的自适应加权策略来动态平衡各项损失。大量实验表明,采用自适应加权的JMAS-VAE在重建、理解和生成三项任务的综合得分上取得了最优平衡,显著优于传统VAE和仅进行时间轴对齐的语义VAE。研究揭示了不同对齐方式对语义和声学信息保留的偏向性,为设计统一的语音表示提供了重要见解。 🏗️ 模型架构 该论文的核心是训练一个语音VAE模型,其架构基于 stable-audio-tools 框架。 整体流程:输入为原始语音波形,经过编码器下采样和潜在空间表示,再通过解码器重建语音波形。核心创新在于训练过程中,VAE的潜在表示会通过一个额外的投影层与一个预训练的语音SSL模型(WavLM Large)的中间特征进行对齐(蒸馏)。 主要组件: 编码器:采用DAC(Descript Audio Codec)编码器架构。输入语音信号经过一系列下采样操作(因子为{4,4,5,5}),最终得到一个64维、帧率为40Hz的连续潜在表示 z。 MLP投影层:一个线性层,将64维的潜在表示 z 投影到1024维,得到 z'。这个 z' 将用于与SSL特征进行对齐。 教师模型:使用预训练的 WavLM Large 模型。提取其第23层的特征作为蒸馏目标 f。该特征维度也为1024维,与 z' 对齐。 解码器:采用BigVGAN解码器,将潜在表示 z 上采样并重建为原始波形。 数据流:原始波形 → DAC编码器 → 潜在表示 z (64维) → MLP投影 → z' (1024维)。训练时,z' 与WavLM特征 f 计算蒸馏损失;同时,z 送入BigVGAN解码器进行重建。推理时,只需编码器和解码器。 设计理由:使用DAC和BigVGAN是因其在音频生成领域的有效性。将潜在空间与强大的SSL模型(WavLM)对齐,旨在注入丰富的语义和声学结构信息,弥补VAE自身在理解任务上的不足。 💡 核心创新点 联合边际对齐蒸馏损失(JMAS Loss): ...