MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora
📄 MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora #语音转换 #自回归模型 #强化学习 #多语言 #工业应用 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tao Feng (清华大学) 通讯作者:Zhizheng Wu (香港中文大学(深圳)) 其他作者: Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang (香港中文大学(深圳)) Xun Guan (清华大学) 💡 毒舌点评 亮点:把TTS生成的“垃圾”(合成语音)从训练目标变成训练源,这个“角色交换”的脑回路确实清奇,直接绕过了合成质量天花板,是论文最大的创新点。槽点:虽然思路巧妙,但整个框架依然严重依赖一个高质量的外部TTS系统来生成训练源,33%的数据过滤率也暗示了对TTS质量的敏感性;此外,构建850万对训练数据所需的计算资源(TTS推理+模型训练)恐怕不是一般实验室能承受的,可复现性存疑。 🔗 开源详情 代码:论文在摘要和正文末尾提供了项目页面 (https://fff-ttt.github.io/MimicLM_demo/) 和 GitHub Issue 链接,暗示代码可能开源或部分开源。但论文正文中未明确给出GitHub仓库地址。 模型权重:未明确说明是否公开预训练模型权重。 数据集:伪平行训练数据基于公开的Emilia数据集构建,但构建后的850M对数据本身未说明是否公开。 在线Demo:项目页面标题为“MimicLM_demo”,很可能提供在线演示。 引用的开源项目:论文明确依赖并集成了 CosyVoice 2.0 的音频分词器和流匹配解码器,以及 Qwen2.5 的语言模型架构。还使用了 Whisper-large-v3 进行ASR过滤和评估。 📌 核心摘要 这篇论文旨在解决零样本语音模仿任务中高质量平行训练数据稀缺的核心瓶颈。传统方法要么依赖复杂的解耦架构,要么使用合成语音作为训练目标,导致输出质量受限于合成系统的能力。作者提出了一种名为 MimicLM 的新框架,其核心创新在于**“角色交换”的数据构建策略**:使用TTS生成的语音作为训练源,而将真实的录音保留为训练目标。这使得模型能够直接从真实语音分布中学习,突破了合成质量的“天花板”。为应对这一新范式带来的内容保真度挑战和训练-推理分布不匹配问题,论文进一步引入了交错文本-音频建模(通过文本锚点引导内容生成)和基于DPO的偏好对齐(使用真实输入进行后训练以弥合分布差距)。实验表明,MimicLM在自然度、说话人相似度和情感保真度上取得了与SOTA方法竞争甚至更优的结果,尤其在主观评价中表现突出,并有效降低了在真实输入上的词错误率。该工作为语音模仿提供了一种概念更简单、效果显著的新范式。 ...