📄 Continual Speaker Identity Unlearning with Minimal Interference #持续学习 #语音合成
🔥 8.6/10 | 前25% | #语音合成 | #持续学习 | arxiv
学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度 高
👥 作者与机构 Jinju Kim, Yunsung Kang: Sungkyunkwan University Gyeong-Moon Park: Korea University Jong Hwan Ko: Sungkyunkwan University
📌 核心摘要 本文针对零样本文本转语音(ZS-TTS)系统中,在现实部署约束下(遗忘请求顺序到达、数据需删除)的说话人身份持续遗忘问题,提出了“灾难性重新学习”这一关键失败模式。现有方法在顺序应用时,为保留模型效用而施加的正则化会无意中恢复先前已遗忘的说话人身份。为解决此问题,作者提出了CORTIS框架,该框架通过对比Fisher信息进行参数定位(控制更新范围)和累积正交子空间投影(控制更新方向),实现无需访问历史遗忘数据即可进行持续遗忘。在VoiceBox模型上的实验证明,CORTIS能在5轮顺序请求后,将所有已遗忘说话人的相似度维持在较低水平,同时保持有竞争力的保留集合成质量,显著优于顺序应用的现有方法。
🔗 开源详情 代码:论文正文和附录中未提供代码仓库链接。 模型权重:论文中未提及发布预训练或遗忘后的模型权重。 数据集:论文使用了公开数据集LibriHeavy(预训练)和LibriSpeech test-clean(评估),但未提供下载链接或特定预处理脚本。遗忘集为从LibriHeavy中筛选的5个特定说话人音频。 Demo:提供了演示链接 https://cumulativeortis.github.io/。 复现材料:论文附录B、C、D提供了非常详细的实现步骤、超参数、模型架构(VoiceBox)描述和基线配置,理论上足以支持复现。 论文中引用的开源项目: VoiceBox:提供了论文链接(https://arxiv.org/abs/2306.15687)和Demo页面,但未提及代码仓库。 LibriHeavy、LibriSpeech:标准数据集,未提供特定链接。 Diffwave、HuBERT-Large、WavLM-TDCNN:作为工具被引用,未提供具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决ZS-TTS模型中持续说话人身份遗忘的“灾难性重新学习”问题,其核心设计是在不访问历史遗忘数据的前提下,最小化每次遗忘更新对先前遗忘结果的干扰。该框架包含两个互补且顺序执行的阶段,图2对其进行了可视化概述。
对比参数定位 (Contrastive Parameter Localization) 功能:确定每次遗忘序列中,模型参数的“可训练区域”。其目标是局部化更新,使其集中在与当前遗忘说话人最相关的参数子集上,同时软排除对保留集质量或任何先前遗忘说话人重要的参数。 实现: 对于第 i 次遗忘序列(针对说话人集 f_i),首先计算当前遗忘集 f_i 数据的遗忘损失的对角Fisher信息矩阵 F_{f_i}。 同时,维护保留集 R_i 的Fisher信息矩阵 F_{R_i},以及所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息矩阵 F_{f_1}, ..., F_{f_{i-1}}。F_{R_i} 不需要在每次请求时从整个保留集重新计算,可以使用一个固定的子集并跨序列重用。 构造一个显著性图,其计算公式为:saliency_i = (F_{f_i} + ϵ) / (max(F_{R_i}, F_{f_1}, ..., F_{f_{i-1}}) + ϵ)。公式中的分母是逐元素最大值操作,起到软保护作用:任何对保留集质量或任何先前遗忘说话人重要的参数,其显著性得分都会被压低。 选择显著性图中全局排名前 k% 的参数,形成二值训练掩码 M_i。在后续第 i 次序列的更新中,只有被 M_i 标记的参数是可训练的,其余参数被冻结。 输入:当前遗忘集 f_i 的数据;保留集 R_i 的Fisher信息(可复用);所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息(历史积累)。 输出:二值掩码 M_i,定义了本次更新的可训练参数子集。 累积正交子空间投影 (Cumulative Orthogonal Subspace Projection) 功能:在参数定位的基础上,进一步约束可训练参数的更新方向。它将新的更新梯度投影到由所有先前遗忘序列更新所张成子空间的正交补上,从而阻止更新沿先前遗忘所使用过的关键方向进行,从方向层面防止对先前遗忘结果的干扰。 实现: 在第 i 次遗忘序列的训练过程中,以固定间隔(例如每 n 步)收集优化器步进的梯度快照。 训练完成后,将收集到的梯度快照堆叠,并通过截断奇异值分解(SVD)计算一个秩为 R 的标准正交基 U_i。为保证 U_i 仅捕获未被先前子空间覆盖的方向,在进行SVD之前,会从每个梯度快照中减去先前累积子空间 U_{<i} 的投影分量,从而在构造上使 U_i 与 U_1, ..., U_{i-1} 正交。 为避免累积子空间 U_{<i} 的维度随请求序列线性增长(导致投影成本无限增加),采用了一种固定的秩合并策略。在序列 i+1 开始时,构造一个能量加权的列堆叠矩阵 Φ_i = [U_1 Σ_1 | ... | U_i Σ_i],其中每列按其对应的奇异值 Σ_k 缩放,以编码该方向在相应说话人遗忘过程中的重要性。然后,对该矩阵进行秩为 R_merge 的截断SVD,得到最终用于投影的累积子空间基底 U_{<i}。这确保了无论序列多长,投影计算成本保持恒定。 在每次优化器步进后,位于掩码 M_i 内的权重更新量 δ 被投影到 U_{<i} 的正交补空间:δ ← δ - U_{<i} U_{<i}^⊤ δ。 输入:当前序列 i 训练过程中的梯度快照;历史累积的子空间基底 U_{<i}。 输出:投影后的权重更新量 δ。 组件间交互:两个阶段形成级联约束。首先,参数定位(掩码 M_i)将优化搜索空间限制在一个局部化的、与当前遗忘任务相关的参数子集中。然后,在这个受约束的子空间内,正交投影进一步限制了更新向量的方向,使其避开由历史遗忘操作定义的“禁区”。这种“空间+方向”的双重约束共同作用,旨在实现对先前遗忘结果的最小干扰。
...