OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Speech
📄 OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Speech #语音合成 #大语言模型 #推理 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #推理 | #大语言模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yong Ren(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院) 通讯作者:Jiangyan Yi(清华大学自动化系),Jianhua Tao(清华大学自动化系;北京信息科学与技术国家研究中心),Zhengqi Wen(清华大学自动化系;北京信息科学与技术国家研究中心) 作者列表: Yong Ren(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院) Jiangyan Yi(清华大学自动化系) Jianhua Tao(清华大学自动化系;北京信息科学与技术国家研究中心) Haiyang Sun(中国科学院自动化研究所,多模态人工智能系统国家重点实验室) Zhengqi Wen(清华大学自动化系;北京信息科学与技术国家研究中心) Hao Gu(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院) Le Xu(中国科学院自动化研究所,多模态人工智能系统国家重点实验室) Ye Bai(中国科学院自动化研究所,多模态人工智能系统国家重点实验室) 💡 毒舌点评 亮点:这项工作最漂亮的地方在于它系统性地解决了一个真实痛点——不再让用户纠结于“高兴”还是“快乐”,而是直接告诉模型“用一种在酒局上试探对手的、带着不屑的语气说话”,并为此构建了从数据到模型的全套方案。短板:但整个数据集的构建像一条精密的“LLM流水线”,从上下文提取、指令生成到一致性过滤、推理链标注,对Qwen3和DeepSeek-R1等模型的依赖过重,这既可能引入特定模型的偏差,也使得数据集的“开放性”打了个折扣。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/y-ren16/OV-InstructTTS。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:OV-Speech数据集被声明为公开,可通过上述GitHub链接获取。其构建基础ContextSpeech数据集也提供了Hugging Face链接。 Demo:论文提到提供了演示(demos),链接在项目页面中。 复现材料:论文详细描述了OV-Speech数据集的五阶段构建流程,并给出了模型架构图和示例。但训练硬件、完整超参数(如优化器、调度器)等关键复现细节未说明。 论文中引用的开源项目: 模型骨干:Step-Audio-2-mini-Base (https://github.com/stepfun-ai/Step-Audio2) 基线模型:CosyVoice2 (https://github.com/FunAudioLLM/CosyVoice), Higgs-Audio-V2 (https://github.com/boson-ai/higgs-audio) 数据集构建相关:Qwen3-32B, Deepseek-R1, Qwen2-Audio-7B, ContextSpeech, NVSpeech170k。 评估工具:Paraformerzh (FunASR工具包), WavLM。 📌 核心摘要 这篇论文旨在解决现有“指令驱动语音合成”(InstructTTS)系统无法处理灵活、高层次的自然语言描述,只能依赖预定义声学属性标签的局限性。其核心方法是提出一个新的范式——OV-InstructTTS,并配套提出了一个由专用数据集OV-Speech和一个推理驱动的框架OV-InstructTTS-TEP组成的完整解决方案。与之前方法相比,新范式直接面向从叙事上下文中生成的开放式词汇指令,而新框架在合成前通过一个显式的“思考”步骤,将高层指令分解并推断出具体的情感、声学和副语言特征。主要实验结果表明,OV-InstructTTS-TEP在指令遵循度(Gemini Score 70.42, Gemini Rank 3.39/6)、语音自然度(MOS 4.28)和指令一致性(ICMOS 3.91)上均优于包括GPT-4o(API)和CosyVoice2在内的多个强大基线。该工作的实际意义在于推动TTS系统从“参数控制”向更直观的“意图控制”演进,提升用户友好性。其主要局限性在于数据集OV-Speech的构建过程高度依赖多个大型语言模型,可能引入偏差,且完全复现模型需要未公开的权重和更多硬件信息。 ...