📄 OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Speech
#语音合成 #大语言模型 #推理 #数据集
🔥 8.0/10 | 前25% | #语音合成 | #推理 | #大语言模型 #数据集
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Yong Ren(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院)
- 通讯作者:Jiangyan Yi(清华大学自动化系),Jianhua Tao(清华大学自动化系;北京信息科学与技术国家研究中心),Zhengqi Wen(清华大学自动化系;北京信息科学与技术国家研究中心)
- 作者列表:
- Yong Ren(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院)
- Jiangyan Yi(清华大学自动化系)
- Jianhua Tao(清华大学自动化系;北京信息科学与技术国家研究中心)
- Haiyang Sun(中国科学院自动化研究所,多模态人工智能系统国家重点实验室)
- Zhengqi Wen(清华大学自动化系;北京信息科学与技术国家研究中心)
- Hao Gu(中国科学院自动化研究所,多模态人工智能系统国家重点实验室;中国科学院大学人工智能学院)
- Le Xu(中国科学院自动化研究所,多模态人工智能系统国家重点实验室)
- Ye Bai(中国科学院自动化研究所,多模态人工智能系统国家重点实验室)
💡 毒舌点评
亮点:这项工作最漂亮的地方在于它系统性地解决了一个真实痛点——不再让用户纠结于“高兴”还是“快乐”,而是直接告诉模型“用一种在酒局上试探对手的、带着不屑的语气说话”,并为此构建了从数据到模型的全套方案。短板:但整个数据集的构建像一条精密的“LLM流水线”,从上下文提取、指令生成到一致性过滤、推理链标注,对Qwen3和DeepSeek-R1等模型的依赖过重,这既可能引入特定模型的偏差,也使得数据集的“开放性”打了个折扣。
📌 核心摘要
这篇论文旨在解决现有“指令驱动语音合成”(InstructTTS)系统无法处理灵活、高层次的自然语言描述,只能依赖预定义声学属性标签的局限性。其核心方法是提出一个新的范式——OV-InstructTTS,并配套提出了一个由专用数据集OV-Speech和一个推理驱动的框架OV-InstructTTS-TEP组成的完整解决方案。与之前方法相比,新范式直接面向从叙事上下文中生成的开放式词汇指令,而新框架在合成前通过一个显式的“思考”步骤,将高层指令分解并推断出具体的情感、声学和副语言特征。主要实验结果表明,OV-InstructTTS-TEP在指令遵循度(Gemini Score 70.42, Gemini Rank 3.39/6)、语音自然度(MOS 4.28)和指令一致性(ICMOS 3.91)上均优于包括GPT-4o(API)和CosyVoice2在内的多个强大基线。该工作的实际意义在于推动TTS系统从“参数控制”向更直观的“意图控制”演进,提升用户友好性。其主要局限性在于数据集OV-Speech的构建过程高度依赖多个大型语言模型,可能引入偏差,且完全复现模型需要未公开的权重和更多硬件信息。
| 模型 | Gemini Score↑ | Gemini Rank↓ | CER(%)↓ | SIM↑ | MOS↑ | ICMOS↑ |
|---|---|---|---|---|---|---|
| GroundTruth | 75.43 | 2.94/6 | 3.10 | - | 4.10 (±0.14) | 4.33 (±0.15) |
| Cosyvoice2 (No-Instruct) | 66.99 | 3.59/6 | 3.09 | 0.659 | 3.84 (±0.19) | 2.94 (±0.23) |
| GPT4odiamond | 68.31 | 3.48/6 | 3.89 | 0.701 | 3.23 (±0.24) | 2.42 (±0.23) |
| Higgs Audio V2diamond | 65.10 | 3.73/6 | 8.42 | 0.707 | 3.81 (±0.20) | 3.00 (±0.20) |
| Step-Audio-2-mini | 67.59 | 3.56/6 | 5.49 | 0.701 | 3.53 (±0.24) | 2.40 (±0.21) |
| OV-InstructTTS-TEP | 70.42 | 3.39/6 | 3.61 | 0.722 | 4.28 (±0.14) | 3.91 (±0.17) |
表2展示了主实验结果,本文提出的OV-InstructTTS-TEP在指令遵循的客观与主观指标上均取得最优。
图2展示了OV-InstructTTS-TEP的模型架构(a)和一个具体的工作示例(b)。架构图清晰地表明了模型接收开放式指令和转录文本后,首先生成推理过程(Think Token),然后基于推理结果生成带有情感和副语言标签的富化转录文本以及对应的音频Token。
🏗️ 模型架构
本文提出的 OV-InstructTTS-TEP 框架是一个基于大型音频语言模型的推理驱动系统,其核心思想是将开放式指令到语音的合成过程,分解为显式的“思考”和“生成”两个阶段。
整体流程:
- 输入:系统接收一段开放式词汇指令(例如,“在一个旨在测试仆人忠诚的宴会上,一位极度重视身份的王储突然用权力施压,试图击溃对方心理防线,说:‘你为什么选了这么个仆人?’”)和对应的文本转录(“你为什么选了这么个仆人?”)。
- 思考阶段(Thinking Token Generation):模型(基于Step-Audio-2-mini-Base)首先生成一个推理链。这个过程发生在模型的文本解码器中。它会对输入指令进行“指令解构”,识别出指令中隐含的上下文元素(如环境描述、当前事件、说话者性格等),然后进行“属性推断”,从这些元素中推断出具体的语音表演属性,包括情感标签、声学描述和副语言标签。这个推理过程被包裹在
...</think>标记内(如图2(b)所示)。 - 生成阶段(Interleaved Text-Audio Token Generation):在推理链生成后,模型的解码器继续工作,但此时的目标变为生成交错的文本-音频Token序列。
- 富化文本Token:模型预测的文本Token不再是原始转录,而是融合了推理出的属性的“富化转录”。其格式为:
[情感标签] 转录文本 <|副语言标签|>。例如:[doubt, contempt, displeasure] Why did you <|Breathing|> choose such a servant?。 - 音频Token:与上述富化文本Token交错生成的,是对应的离散音频Token。这些Token随后通过Flow-matching模型和HiFiGAN声码器解码成最终的语音波形。
- 富化文本Token:模型预测的文本Token不再是原始转录,而是融合了推理出的属性的“富化转录”。其格式为:
关键设计选择:
- 推理驱动:这是框架最核心的创新。它不是让模型隐式学习从复杂指令到语音的直接映射,而是先让模型输出一个可解释的、连接高层指令与低层声学特征的中间“思考过程”。这借鉴了大语言模型中“链式思考”的理念,旨在提高模型对复杂指令的理解和执行精度。
- 交错生成:采用交错生成文本和音频Token的方式(类似某些统一模型),使得生成的语音能更精确地与富化后的转录内容(特别是情感和副语言标签)对齐。
💡 核心创新点
- 提出OV-InstructTTS新范式:突破了现有InstructTTS对预定义声学属性标签(如“高兴”、“快速”)的依赖,将指令输入扩展到任意自然语言描述的开放式词汇,更贴近用户(如导演给配音演员的指示)的真实交互方式。
- 构建OV-Speech大规模数据集:为支持新范式,构建了一个多层级数据集。其指令并非简单复述音频标签,而是从有声读物的叙事上下文中生成,确保了多样性和自由度;同时为每个样本标注了连接指令与声学的推理链,以及包含副语言标签的转录,为训练推理驱动模型提供了关键数据基础。
- 提出推理驱动框架OV-InstructTTS-TEP:创新性地将大音频语言模型应用于语音合成,框架内置了“思考-合成”两阶段过程。模型先生成推理文本(推断情感、声学、副语言特征),再基于此生成语音,显式地弥合了高层语义与底层声学之间的鸿沟。
- 端到端的解决方案与全面评估:不仅提出方法,还提供了从数据构建、模型设计到开源代码的完整方案。实验部分将方法与GPT-4o、CosyVoice2等顶级系统对比,并进行了详尽的消融研究,证明了推理步骤和数据集中各组件(如副语言标签)的必要性。
🔬 细节详述
- 训练数据:
- 数据集:本文主要使用OV-Speech数据集进行训练和评估。该数据集构建于ContextSpeech语料库之上(一个476.8小时的多说话人有声读物数据集)。
- 规模与划分:训练集包含316,807条语音样本,来自83部小说,每条样本配有3条不同的开放式指令。测试集包含1,500条来自3部未见小说的样本。
- 预处理与增强:数据构建是一个五阶段流水线(见图1):(1) 使用Qwen3-32B提取上下文信息(环境、事件、人物等);(2) 生成开放式指令;(3) 使用Deepseek-R1和Qwen3-32B进行一致性过滤(预测情感声学属性并与真实标签对比,丢弃对齐度低的样本);(4) 使用Qwen3-32B生成连接指令与属性的推理链;(5) 使用微调的Qwen2-Audio-7B模型,通过PC-PTI策略(先预测副语言事件,再插入标签)为转录文本添加18种副语言标签(如
[Laughter])。
- 损失函数:论文未说明具体的损失函数名称和公式。根据其基于Step-Audio-2-mini-Base的自回归生成架构,训练损失很可能是标准的自回归交叉熵损失,用于预测下一个Token(无论是文本、音频还是推理Token)。
- 训练策略:
- 优化器与学习率:未明确说明优化器。学习率为1e-5。
- Batch Size:全局批量大小为32。
- 其他:未说明warmup、训练步数/轮数、调度策略。
- 关键超参数:
- 模型骨干:Step-Audio-2-mini-Base。论文未说明其具体的模型大小(参数量)、层数、隐藏维度等。
- 数据集相关:副语言标签共18类,来自NVSpeech。
- 训练硬件:论文未提供训练所使用的GPU型号、数量及训练时长。
- 推理细节:
- 解码策略:未明确说明使用的是beam search还是采样。从“生成交错序列”的描述看,可能使用了自回归逐Token生成。
- 声码器:与Step-Audio-2-mini-Base相同,使用Flow-matching模型和HiFiGAN声码器将离散音频Token合成为波形。
- 其他:未说明温度、top-k/top-p等采样参数。
- 正则化或稳定训练技巧:论文未提及使用了Dropout、权重衰减等特定技巧。
📊 实验结果
主要基准与指标: 论文使用了多维度的评估:
- 指令遵循度:采用 LLM-as-a-judge。使用Gemini 2.5 Pro作为评委,评估合成语音与开放式指令的对齐程度,给出Gemini Score (0-100) 和Gemini Rank。
- 可懂度:使用Paraformerzh ASR模型计算字符错误率 (CER)。
- 音色相似度:使用WavLM-large模型提取说话人嵌入,计算余弦相似度 (SIM)。
- 主观评价:8位母语人士进行听力测试,评价自然度MOS和指令一致性MOS (ICMOS),均为5分制。
主实验结果 (Table 2): 本文提出的 OV-InstructTTS-TEP 在所有关键指标上均优于基线系统(GroundTruth除外)。
- 在指令遵循的客观指标上,取得最高的Gemini Score (70.42) 和最佳的Gemini Rank (3.39/6)。
- 在主观评价上,取得了最高的MOS (4.28) 和ICMOS (3.91),甚至在自然度MOS上略高于真实语音 (4.10)。
- 在音色相似度上也达到最优 (SIM 0.722),同时保持了竞争性的CER (3.61%)。
消融实验 (Table 3): 消融研究验证了OV-Speech数据集和框架中各组件的价值:
- 数据集效果:比较使用OV-Speech微调前后的Step-Audio-2-mini模型 (a,b vs c,d),微调后各项指标显著提升,证明数据集有效。
- 推理过程效果:对比(d)与(f),加入推理过程后,Gemini Score从67.70提升至68.71,ICMOS从3.74提升至3.90,说明显式推理对理解复杂指令至关重要。
- 推理与富化转录的协同:单独预测富化转录(e)效果不一定优于基线(d)。但当推理与富化转录结合时(g),效果达到最佳:Gemini Score提升至71.57,ICMOS提升至3.90。这表明推理过程提高了情感/副语言标签预测的准确性,而富化转录则为语音合成提供了更精确的条件。
| 方法 | Gemini Score↑ | Gemini Rank↓ | CER(%)↓ | SIM↑ | MOS↑ | ICMOS↑ |
|---|---|---|---|---|---|---|
| GroundTruth | 76.02 | 3.41/8 | 3.10 | - | 4.10 (±0.14) | 4.33 (±0.15) |
| (a) Step-Audio-2-mini (No-Instruct) | 61.49 | 4.85/8 | 8.06 | 0.684 | 3.70 (±0.22) | 2.57 (±0.22) |
| (b) Step-Audio-2-mini | 63.18 | 4.75/8 | 5.49 | 0.701 | 3.53 (±0.24) | 2.40 (±0.21) |
| (c) TTS (No-Instruct) | 66.34 | 4.48/8 | 3.78 | 0.715 | 4.15 (±0.21) | 3.61 (±0.20) |
| (d) OV-InstructTTS | 67.70 | 4.40/8 | 3.56 | 0.720 | 4.23 (±0.16) | 3.74 (±0.18) |
| (e) OV-InstructTTS-EP | 66.98 | 4.45/8 | 3.65 | 0.722 | 4.27 (±0.16) | 3.81 (±0.16) |
| (f) OV-InstructTTS-T | 68.71 | 4.26/8 | 3.45 | 0.722 | 4.27 (±0.18) | 3.90 (±0.16) |
| (g) OV-InstructTTS-TEP | 71.57 | 3.89/8 | 3.61 | 0.722 | 4.28 (±0.14) | 3.91 (±0.17) |
表3展示了消融实验结果,清晰显示了推理过程(T)与富化转录(EP)结合的协同效应。
⚖️ 评分理由
- 学术质量:6.0/7:论文的创新性(新范式、新数据集、推理框架)是最大的亮点。技术实现上,将推理过程显式引入TTS流程的设计合理且有效。实验部分设计周全,包含了与多个强基线的对比和细致的消融分析,定量结果有力地支持了作者的主张。扣分主要在于部分训练细节(如硬件、优化器、完整超参数)的缺失,以及数据集构建对特定LLM的依赖可能影响其通用性。
- 选题价值:1.5/2:研究方向非常前沿,直击当前TTS领域从“技术参数控制”向“用户意图控制”转型的核心需求。所提方法和发布的数据集对推动更自然、更人性化的人机语音交互有明确价值,潜在应用空间广阔。
- 开源与复现加成:0.5/1:论文明确提供了代码库、数据集和演示的链接,这对复现和后续研究是巨大便利。然而,模型权重未提及公开,且“Implementation Details”部分不够详尽(如缺少GPU信息、训练时长),使得研究者无法完全复制其训练过程。这使得复现加成打了折扣。
🔗 开源详情
- 代码:提供代码仓库链接:
https://github.com/y-ren16/OV-InstructTTS。 - 模型权重:论文中未提及是否公开预训练或微调后的模型权重。
- 数据集:OV-Speech数据集被声明为公开,可通过上述GitHub链接获取。其构建基础ContextSpeech数据集也提供了Hugging Face链接。
- Demo:论文提到提供了演示(demos),链接在项目页面中。
- 复现材料:论文详细描述了OV-Speech数据集的五阶段构建流程,并给出了模型架构图和示例。但训练硬件、完整超参数(如优化器、调度器)等关键复现细节未说明。
- 论文中引用的开源项目:
- 模型骨干:Step-Audio-2-mini-Base (
https://github.com/stepfun-ai/Step-Audio2) - 基线模型:CosyVoice2 (
https://github.com/FunAudioLLM/CosyVoice), Higgs-Audio-V2 (https://github.com/boson-ai/higgs-audio) - 数据集构建相关:Qwen3-32B, Deepseek-R1, Qwen2-Audio-7B, ContextSpeech, NVSpeech170k。
- 评估工具:Paraformerzh (FunASR工具包), WavLM。
- 模型骨干:Step-Audio-2-mini-Base (