📄 AST: Adaptive, Seamless, and Training-Free Precise Speech Editing #语音合成 #流匹配 #零样本 #数据集
✅ 评分:7.5/10 | arxiv
👥 作者与机构 第一作者:Sihan Lv(浙江大学,推断) 通讯作者:Meng Xi(浙江大学,推断) 其他作者:Yechen Jin(浙江大学,推断),Zhen Li(浙江大学,推断),Jintao Chen(浙江大学,推断),Jinshan Zhang(浙江大学,推断),Ying Li(浙江大学,推断),Jianwei Yin(浙江大学,推断),Meng Xi(浙江大学,推断) 机构说明:所有作者邮箱均为 @zju.edu.cn,论文未明确标注具体学院或实验室名称,根据致谢中的“Zhejiang Key Laboratory Project”可推断为浙江大学相关实验室。 💡 毒舌点评 把图像编辑里玩烂的潜空间反演(Latent Inversion)搬到语音流匹配模型上,再缝个动态“弱事实引导”当创可贴,居然就把一群专门训练过的语音编辑模型按在地上摩擦——这恰恰说明语音领域在TTS模型免训练适配上的思路有多贫瘠。不过槽点也很明显:WER相比基座IndexTTS-2不降反升(2.43% vs 2.91%),说明为了保住未编辑区域的“原汁原味”,编辑区域的文本准确性还是被献祭了一点;而且LibriSpeech-Edit数据集靠Qwen3-8B生成目标文本,编辑质量全看大模型脸色,可靠性存疑。
📌 核心摘要 本文针对现有语音编辑方法依赖任务特定训练、未编辑区域时间一致性差的问题,提出了AST(Adaptive, Seamless, and Training-free),一种基于预训练AM-FM(自回归-流匹配)范式TTS模型的精确语音编辑框架。AST首先通过逆Euler ODE求解器将原始语音反演至潜空间,然后利用最长公共子序列(LCS)进行词级对齐,将未编辑区域的反演潜流与编辑区域的高斯噪声进行潜变量重组(Latent Recomposition)。为防止拼接边界出现伪影,论文提出了自适应弱事实引导(AWFG),根据当前潜流与原始反演流的偏差动态加权mel空间引导信号。此外,AST天然支持局部风格编辑(如情感、方言)。为填补公开基准空白,论文还发布了LibriSpeech-Edit数据集(2000条,3.6小时)和词级动态时间规整指标(WDTW)。实验表明,AST在说话人相似度(0.986)和时间一致性(WDTW 0.2025)上达到SOTA,WER比专门训练的基线降低近70%,且无需任何额外训练。
🏗️ 模型架构 AST的整体架构是一个免训练的推理框架,依附于一个预训练的AM-FM(Autoregressive Model-Flow Matching)TTS模型(论文使用IndexTTS-2)。其核心不是重新设计网络层,而是在已有模型的潜空间中进行“手术刀式”干预。完整输入输出流程如下:
输入:原始mel-谱图 $m_{\mathrm{ori}}$、原始转录 $y_{\mathrm{ori}}$、目标转录 $y_{\mathrm{tgt}}$、声学提示 $m_{\mathrm{ref}}$。
阶段一:潜空间反演(Latent Inversion) 利用AM-FM解码器的ODE可逆性,将原始语音“倒推”回噪声空间。流匹配的前向过程由ODE定义: $$\frac{dx(t)}{dt}=v_{\phi}\left(x(t);\mu,m_{\mathrm{ref}}\right), \quad t\in[0,1]$$ 其中 $v_\phi$ 是DiT(Diffusion Transformer)参数化的速度场,$\mu$ 是自回归模型生成的语义条件。反演时,采用逆Euler ODE求解器,在假设小步长内速度场近似恒定的前提下,将 $x_{\mathrm{ori}}(1)=m_{\mathrm{ori}}$ 逐步逆推至 $x_{\mathrm{ori}}(0)$: $$x(t-\Delta t)=x(t)-\Delta t\cdot v_{\phi}\left(x(t);\mu_{\mathrm{ori}},m_{\mathrm{ref}}\right)$$ 与此同时,目标文本 $y_{\mathrm{tgt}}$ 通过自回归模型生成语义条件 $\mu_{\mathrm{tgt}}$,并以标准高斯噪声 $x_{\mathrm{tgt}}(0)\sim\mathcal{N}(0,I)$ 为起点,通过前向Euler步进,生成完整的目标mel谱 $m_{\mathrm{tgt}}$。
...