📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
#语音大模型 #语音生成 #预训练 #自回归模型 #少样本
✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练
学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习)
- 通讯作者:未明确说明,但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。
- 作者列表:
- Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习)
- Yi-Chang Chen (MediaTek Research)
- Kuan-Yi Lee (台湾大学电信工程学研究所,MediaTek Research实习)
- Da-Shan Shiu (MediaTek Research)
- Hung-yi Lee (台湾大学人工智能研究中心)
💡 毒舌点评
论文提出了一个解决语音-文本联合建模中序列长度不匹配问题的优雅方案,即让语音token在分词阶段就与文本转录对齐,这确实简化了后续的语言模型训练。然而,该方法强依赖于一个准确的ASR前端(尽管论文进行了鲁棒性测试),且当前验证主要集中在语音续写等相对简单的任务上,对于更复杂的多轮对话、指令跟随等能力未做探讨,其作为“基础模型”的通用性仍有待证明。
🔗 开源详情
- 代码:论文中明确提及提供代码,地址为
https://mtkresearch.github.io/TASTE-SpokenLM.github.io(实际为项目主页,需跳转至代码仓库)。 - 模型权重:论文中明确提及提供模型,地址同上。
- 数据集:使用公开数据集 Emilia 和 LibriTTS,未提供独有数据集。
- Demo:论文中明确提及提供在线演示,地址为上述网址。
- 复现材料:论文在附录中提供了非常详细的超参数、训练配置、评估细节和算法伪代码(如解决分词器不匹配的算法1),复现信息充分。
- 引用的开源项目:Whisper (编码器), S3 token/Vocoder (语音单元和声码器), LLaMA (基座LLM), DeepSpeed/Liger Kernel (训练加速), Montreal Forced Aligner (对齐工具), HiFi-GAN。
📌 核心摘要
- 要解决什么问题:现有语音语言模型(SLM)在联合文本和语音建模时,面临模态间隙和序列长度不匹配的挑战。传统语音分词(如EnCodec)产生的token序列远长于对应文本,需要复杂的对齐策略(如插入填充、交错生成)才能进行联合建模,增加了复杂性。
- 方法核心是什么:提出TASTE,一种文本对齐的语音分词与嵌入方法。它直接将语音分词过程与文本转录对齐:首先使用ASR获得文本转录,然后通过一个基于注意力的聚合器(以文本转录为查询,ASR编码器最后一层为键、浅层为值)将语音表示压缩并硬对齐到每个文本token上,最后通过RVQ量化。训练目标为语音重建。由此得到的语音token/嵌入在序列长度和位置上与文本token一一对应。
- 与已有方法相比新在哪里:不同于以往先独立分词再设法对齐的思路,TASTE在分词阶段就完成了文本-语音对齐,实现了一种“端到端”的联合分词。这使得在联合语言模型(TASLM)中,可以同时预测下一个文本token和对应的语音token/嵌入,无需额外对齐规则。其语音token专注于携带副语言信息(如韵律、音色),避免了冗余编码文本内容。
- 主要实验结果如何:
- 语音重建:在LibriSpeech上,TASTE以极低比特率(~150 bps,约3 tokens/秒)实现了与高比特率方法(如S3 token, 600 bps)可比的重建质量和相似度(表1)。
- 语音续写:在3秒语音提示后的续写任务上,基于1.3B参数LLaMA微调的TASLM在GPT-4o语义评分(3.16)和人工MOS(4.16)上显著优于其他7B级SLM(表2)。
- 似然基准:在SALMON(声学)和StoryCloze(语义)基准上表现与其它联合建模方法相当,在StoryCloze上达到最佳(76.5%/76.7%)。
- 少样本语音QA:TASLM是少数能在少样本场景下保持基座文本LLM性能的SLM(表3)。
- 实际意义是什么:TASTE提供了一种更简洁、高效的构建文本-语音联合模型的方式,降低了训练复杂度。其极低比特率的语音分词对带宽敏感的传输和存储场景有潜在价值。文本对齐的特性也自然支持了文本对齐的语音编辑(如图3),为精细的语音控制提供了新思路。
- 主要局限性是什么:论文明确提到,当前模型缺乏对话轮次管理和指令跟随能力;仅在英语上验证,多语言泛化性未知;分词器聚焦于清晰语音,未处理重叠语音、非语言事件(如笑声);系统延迟和流式性能未优化。
🏗️ 模型架构
TASTE的整体框架如图2所示,包含两个阶段:TASTE语音分词器训练(用于重建)和联合语言模型(TASLM)训练。
TASTE语音分词器:
- 输入:语音
u及其ASR文本转录v。 - 组件与流程:
- 编码器:使用冻结的预训练Whisper ASR编码器,提取最后层隐藏状态
h(L)和浅层隐藏状态h(l)。 - 聚合器:核心创新模块。采用多头交叉注意力机制,以文本转录
v作为查询(Q),编码器最后层h(L)作为键(K),浅层h(l)作为值(V)。该设计利用最后层对齐信息来聚合包含丰富声学细节的浅层表示,输出与文本长度N对齐的连续表示z。后续层的Q为上一层输出。 - 量化器:对
z进行残差向量量化(RVQ),生成R层的离散码序列q和量化嵌入̂z。̂z是各层码本向量的求和,同样与文本长度对齐。
- 编码器:使用冻结的预训练Whisper ASR编码器,提取最后层隐藏状态
- 输出:文本对齐的语音码序列
q和嵌入̂z。
TASTE语音解码器:
- 输入:文本嵌入
v和TASTE语音嵌入̂z(经加权融合)。 - 组件:由单元解码器(UnitDecoder)和单元到语音声码器(Vocoder)组成。
- 流程:单元解码器是一个Transformer解码器,以融合后的嵌入为条件,自回归地预测语音单元
y。然后通过预训练的Flow-based模型和HiFi-GAN声码器将单元y转换为波形。
联合语言模型(TASLM):
- 建模对象:可以是TASTE码序列
q(TASLMtoken)或TASTE嵌入̂z(TASLMemb)。 - 建模方式:基于预训练文本LLM(如LLaMA)使用LoRA微调。由于TASTE已与文本对齐,建模变得直接:
- TASLMtoken:在每一步同时预测下一个文本token和对应的
R层语音码(多头预测)。 - TASLMemb:预测连续语音嵌入的均值和方差,类似MELLE的潜在建模。
- TASLMtoken:在每一步同时预测下一个文本token和对应的
- 关键设计:通过词级分组和对齐算法解决了ASR和LLM之间分词器不匹配的问题(附录A.4)。

图1:概念对比图。左图为传统方法,语音分词器独立工作,与文本token存在长度错位;右图为TASTE方法,通过双模态输入生成与文本对齐的语音分词,便于直接联合建模。
图2:TASTE的整体框架。左侧展示了TASTE分词器如何从语音和文本转录中生成对齐的语音分词̂z;右侧展示了如何利用分词后的文本和语音表示进行联合语音重建。
💡 核心创新点
- 文本对齐的语音分词设计:这是最核心的创新。它颠覆了传统“先分词,后对齐”的范式,通过在分词阶段引入文本监督,直接生成与文本token序列在长度和位置上一一对应的语音token/嵌入。这从根本上解决了联合建模中的序列长度不匹配问题。
- 基于注意力的跨模态聚合器:利用预训练ASR编码器的不同层信息,设计了一个精巧的注意力聚合器。以文本为查询,自适应地从语音的浅层(富含声学细节)和高层(富含对齐信息)表示中聚合信息,高效生成对齐表示。
- 面向联合建模的联合分词-嵌入优化:明确将“服务于下游联合语音语言模型”作为语音分词的目标,并通过重建损失进行端到端优化。这区别于仅优化重建质量的分词器(如EnCodec),强调其信息的“副语言”属性。
- 极低比特率下的高质量重建与信息保留:通过与文本共享信息(文本提供内容骨架),TASTE语音token专注于编码韵律、音色等副语言信息,实现了在极低比特率(~150 bps)下的高质量语音重建和信息保留(如图3所示的文本对齐编辑)。

图3:TASTE用于文本对齐语音编辑的示意图和结果。展示了交换特定词的TASTE token后,对应词的时长发生精确变化,而其他词保持不变。
🔬 细节详述
- 训练数据:两个数据集。Emilia(英语子集,约4万小时,网络语音,伪标签文本);LibriTTS(约600小时,朗读风格)。评估使用LibriSpeech test-clean。
- 损失函数:
- 分词器重建损失
L_taste:由交叉熵损失L_ce(在语音单元y上)和RVQ承诺损失L_rvq组成。 - TASLMtoken损失:标准的下一token预测损失,同时预测文本和多层语音码。
- TASLMemb损失:包括重建正则化损失
L_reg、KL散度损失L_KL和文本预测损失。
- 分词器重建损失
- 训练策略:
- 分词器训练:训练5轮,使用Adam优化器,学习率0.0016,批大小160秒/卡。前两轮不启用量化,第三轮开始引入RVQ。8张NVIDIA A6000 GPU,约2天。
- SLLM训练:使用LoRA(r=64,α=128)微调基座LLM。AdamW优化器,余弦学习率调度,峰值学习率1e-5。使用DeepSpeed和Liger Kernel加速,bfloat16混合精度。8张NVIDIA A6000 GPU,总批大小768样本(梯度累积步长2)。
- 关键超参数:
- RVQ层数
R=4,码本大小512,码本维度256。 - Whisper编码器固定,聚合器和量化器可训练。基座LLM为LLaMA3.2-1B。
- RVQ层数
- 训练硬件:NVIDIA A6000 GPU(分词器8卡,SLM微调8卡)。
- 推理细节:分词器解码使用确定性单元解码器+预训练声码器。TASLM在语音续写中使用自回归采样。
📊 实验结果
- 语音重建评估(LibriSpeech test-clean)
Method Freq. (Hz) Bitrate (bps) WER ↓ UTMOS DNSMOS ViSQOL Drtn. Con. Spkr. Sim. MUSHRA Ground Truth 16k 256k 2.1% 4.09 3.84 - - - 76.6 S3 token (topline) 25 600 3.0% 4.18 3.90 3.30 0.96 0.82 70.2 Text-only (baseline) ~3 ~50 5.9% 4.31 4.11 2.44 0.57 0.78 42.6 TASTE (ours) ~3 ~150 4.4% 4.29 4.10 3.05 0.91 0.80 68.3
关键结论:TASTE以最低的码率(~150 bps,~3 Hz)实现了接近高比特率topline(S3 token, 600 bps)的重建质量(WER, UTMOS, DNSMOS)和相似度(Spkr. Sim., MUSHRA),显著优于文本基线。
- 语音续写与似然评估
Method Finetuned / base GPT-4o ↑ UTMOS ↑ Human ↑ SALMON ↑ StoryCloze ↑ Overall ↑ Cascade (LLaMA3.2-1B) - 3.15 4.25 4.00 - - - TWIST 7B 7B / 7B 1.44 3.27 2.04 63.4 64.7 64.1 Spirit LM Expr. 7B / 7B 1.90 3.40 2.41 69.0 66.2 67.6 Baseline (S3 token) 45M / 1.3B 1.37 4.04 2.84 50.2 58.7 54.5 TASLM 1B (token) 45M / 1.3B 3.08 4.07 3.93 60.8 76.5 68.7 TASLM 1B (embed.) 45M / 1.3B 3.16 4.22 4.16 57.7 76.7 67.2

图7(对应论文表2):不同SLM在语音续写和似然基准上的性能对比。TASLM(基于1.3B参数)在语义(GPT-4o, StoryCloze)和声学(UTMOS)评估上均显著优于或持平于其他7B级预训练SLM。
关键结论:仅使用1.3B基座模型进行LoRA微调,TASLM在语音续写任务的各项评估上全面超越现有的7B预训练SLM(如TWIST, Spirit LM),并达到了与基于相同基座的级联系统相当甚至更优的水平。在StoryCloze语义基准上取得最佳成绩。
- 语音问答评估(少样本)
Method Mode Web Q. ↑ LLaMA-Q. ↑ Mini-Omni 0.5B (T→T) T 21.3 39.0 Llama-Omni-8B T+S 35.5 67.3 LLaMA3.2-1B† T 24.0 51.0 TASLM 1B (embed.)† T+S 27.1 57.6 † 表示使用了少样本学习。
关键结论:TASLM是少数在加入语音输入后能保持甚至略微提升基座文本LLM性能的模型,而其他多模态模型(如Mini-Omni, Llama-Omni)性能均出现显著下降。
- 消融研究
- 分词器模块消融(表4):移除聚合器导致频率剧增和准确率骤降;移除量化器进一步降低准确率,但仍远高于文本基线。证明各模块必要。
- ASR鲁棒性(表5,6):使用ASR转录与使用真实转录相比,分词器重建质量和SLM问答性能下降可忽略,表明系统对ASR错误鲁棒。
- 噪声鲁棒性(表8):在SNR从20dB到5dB的噪声条件下,TASTE的重建WER和说话人相似度均保持稳定且领先,表明其鲁棒性。
⚖️ 评分理由
- 学术质量:5.5/7:创新点明确(文本对齐分词),技术方案完整且有消融实验支撑。实验设计全面,覆盖重建、生成、理解等多个任务。不足在于创新属于渐进式改进(对齐思路并非全新),且核心评估任务(续写)相对简单,未深入探讨更复杂的对话或指令任务。
- 选题价值:1.0/2:选题切中当前语音大模型发展的一个具体痛点(模态对齐),具有明确的实用价值和前沿性。但应用场景相对较窄,主要针对语音生成和续写,对更广泛的语音理解或交互任务的直接影响未充分体现。
- 开源与复现加成:0.5/1:论文明确承诺提供代码、模型和Demo,训练细节(包括解决分词器不匹配的算法)在附录中描述详尽,大大降低了复现门槛。依赖的外部数据集(Emilia, LibriTTS)是公开可用的。