Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
📄 Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost #语音合成 #迁移学习 #多语言 #低资源 #开源工具 🔥 8.0/10 | 前25% | #语音合成 | #迁移学习 | #多语言 #低资源 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Venkata Pushpak Teja Menta(论文中未提及其所属机构) 通讯作者:论文中未明确标注通讯作者 作者列表:Venkata Pushpak Teja Menta(未说明) 💡 毒舌点评 这篇论文像一次精准的外科手术,用BUPS“接骨”、LoRA“接肌”、语音提示“复健”这套组合拳,把一个不认字的“外国”大脑硬生生调教出了地道的印度口音,效果惊艳。遗憾的是,手术成功的病例报告只有10个,虽然每个都做得很漂亮,但要下“这方法对所有印度患者都有效”这样的结论,样本量还是寒酸了点,说服力打了折扣。 🔗 开源详情 代码:提供完整推理代码仓库,地址为 github.com/praxelhq/praxy,采用MIT许可。包含BUPS、配置B、语言路由器和代码混合预处理器。 模型权重:提供R6版本的LoRA适配器权重,地址为 huggingface.co/Praxel/praxy-voice-r6,采用Apache-2.0许可。基座模型Chatterbox Multilingual为MIT许可。 数据集:未提供独立数据集。论文中使用的训练数据(IndicTTS, Rasa, FLEURS, Shrutilipi)均为公开可用的许可数据集。 Demo:提供Gradio在线演示,托管于Hugging Face Spaces(具体链接在HF仓库README中)。 复现材料:论文详细描述了训练超参数、配置、硬件环境和数据预处理步骤。评估基准PSP的评测脚本和伪影(artifacts)随配套论文发布。 引用的开源项目: 模型/基础:ResembleAI Chatterbox Multilingual (MIT), AI4Bharat IndicF5。 工具库:indic-transliteration (ISO-15919转写), HuggingFace PEFT (LoRA实现)。 语音识别评估:Whisper大模型家族 (IndicWhisper)。 语言模型:Anthropic Claude Haiku 4.5 (用于代码混合转写), Qwen-2.5-72B (用于LLM-WER评估)。 📌 核心摘要 问题:现有的开源多语言语音合成(TTS)基座(如Chatterbox)在覆盖关键印度语言(泰卢固语、泰米尔语)方面存在缺陷,无法直接进行高质量合成;而从头训练或依赖商业API成本高昂或受制于人。 核心方法:提出一个“最小干预”组合方案:(a) BUPS:将印度文字无损转换为拉丁字符(ISO-15919),让基座的拉丁文分词器能处理;(b) 最小参数LoRA:仅在文本预测器上训练适配器(占总参数0.97%),使用印地语作为语言ID代理;(c) 语音提示恢复:在推理时,提供同语言8-11秒参考音频,并调整采样参数(Config B),以恢复声学自然度。 创新:相较于从头训练或全面微调,本文创新在于通过“脚本路由(BUPS)+ 文本编码器轻量适配(LoRA)+ 推理时声学条件化(语音提示)”这一最小化、模块化的方式,解锁冻结基座模型的新语言能力。并设计了纯文本和代码混合的两套部署分支。 主要结果:在PSP基准测试的10句话小规模评测上: 泰卢固语:卷舌音错误率26.7%(优于Sarvam Bulbul的33.3%)。 泰米尔语:特有的“zha”音错误率71%(显著优于商业系统的86%)。 印地语:LLM-WER 0.025(与Cartesia Sonic-3持平),且意图保持率100%。 关键消融实验证明,对印地语施加相同的LoRA会严重损害性能,证实了该方法的适用范围。 实际意义:为资源有限的团队提供了一条零商业数据成本、低算力门槛的路径,将开源多语言TTS快速适配到高价值的印度语言市场,且代码和模型完全开源。 主要局限性:评测样本量小(每语言仅10句话),统计显著性不足;未进行正式的MOS主观评估;印度语的声学自然度(FAD)仍有差距;代码混合场景(英印夹杂)性能与商业系统相比仍有明显差距。 🏗️ 模型架构 论文的核心是一个三分支推理流水线(图1),根据输入文本类型路由到不同处理路径: ...