Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
📄 Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost #语音合成 #迁移学习 #多语言 #大语言模型 #开源工具 🔥 8.0/10 | 前25% | #语音合成 | #迁移学习 | #多语言 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Venkata Pushpak Teja Menta(未说明) 通讯作者:未说明 作者列表:Venkata Pushpak Teja Menta(未说明) 💡 毒舌点评 本文巧妙地利用BUPS罗马音转换和LoRA轻量适配,将一个完全不支持泰卢固语和泰米尔语的开源模型提升至接近商业水平,工程实用性和开源诚意十足;但评估集仅10句,缺乏正式的MOS主观评估,且对印地语的声学保真度(FAD)仍落后于商业系统,证明其“最小干预”路径在声学解码器层面仍有天花板。 🔗 开源详情 代码:提供,链接为 https://github.com/praxelhq/praxy ,许可证为MIT。 模型权重:提供,R6 LoRA权重发布于 https://huggingface.co/Praxel/praxy-voice-r6 ,许可证为Apache-2.0。 数据集:未提供新数据集。使用了公开的授权数据集(IndicTTS, Rasa, FLEURS, Shrutilipi),论文中给出了各数据集的规模。 Demo:提供,Gradio演示托管在Hugging Face Spaces上(链接在HuggingFace仓库README中)。 复现材料:提供了完整的训练细节(超参数、学习率调度、硬件、训练步数)、推理代码、配置(Config B)、BUPS实现、语言路由器、统一的印度语数字/日期/货币规范化器。评估基准和评测工件随PSP伴侣论文发布。 论文中引用的开源项目:ResembleAI Chatterbox(基座模型)、AI4Bharat IndicF5(语码混合分支后端)、indic-transliteration(BUPS核心依赖)、HuggingFace PEFT库(LoRA实现)、Anthropic Claude Haiku 4.5(语码混合音译预处理)、OpenRouter(用于LLM-WER评估的Qwen模型接口)。 📌 核心摘要 要解决什么问题:如何以最小干预、零商业训练数据成本,将一个不支持印度语言(泰卢固语、泰米尔语)的商用级多语言开源TTS基座(Chatterbox)提升至商业级输出质量,并保持其对已支持语言(印地语)的性能。 方法核心是什么:提出一个包含三个工程组件的集成方案:(1)BUPS,一个将婆罗米文字脚本无损转换为拉丁字母(ISO-15919)的确定性路由层;(2)仅在文本预测头(t3)上训练的LoRA适配器(占模型总参数的0.97%),使用印地语作为语言ID代理;(3)一个推理时语音提示恢复配方,包括同语言参考音频(8-11秒)和三组采样参数覆盖(Config B:夸张度0.7,温度0.6,最小概率0.1)。 与已有方法相比新在哪里:不同于从头训练新模型,本文首次系统性地展示了如何通过“最小干预包装”路径,让一个冻结的、非原生支持目标语言的多语言基座达到商业级输出。BUPS作为路由机制、LoRA仅用于文本头的适配策略,以及特定的推理时恢复配方(Config B)的组合是其核心工程创新。 主要实验结果如何:在10句语音的PSP基准测试上,Praxy Voice系统在关键指标上达到或超越商业系统:泰卢固语卷舌音坍塌率26.7%(优于Sarvam Bulbul的33.3%);泰米尔语特殊音节“zh”坍塌率71%(显著优于商业三巨头的86%);印地语LLM-WER为0.025(与Cartesia Sonic-3持平)。对于语码混合输入,通过IndicF5加本地文字音译预处理,LLM-WER从原始模型的0.80-0.85降至0.14-0.27。关键消融实验表明,该LoRA方法在印地语上会损害语义准确性(LLM-WER从0.025劣化至0.334),验证了其作用范围仅限于基座未原生支持的语言。 实际意义是什么:为资源有限的团队提供了一条低成本(约45美元计算成本)、低数据门槛的路径,使其能快速将开源多语言TTS模型扩展至新的高价值语言(如印度主要语言),并保持接近商业系统的质量。完整的开源发布(代码、模型、演示)极大地促进了复现和应用。 主要局限性是什么:评估基于小规模试点集(每语言10句),结果可能存在噪声;缺乏正式的MOS主观评分;对声学解码器的适配因计算限制未进行,导致印地语的FAD指标落后于商业系统;语音提示恢复依赖用户提供的参考音频,增加了使用复杂度。 🏗️ 模型架构 本文的核心是三分支推理管道,其架构图如图1所示(论文中未提供独立的URL,但图1在原文中已有详细描述)。整体流程如下: ...