TASU: Text-only Alignment for Speech Understanding
📄 TASU: Text-only Alignment for Speech Understanding #语音识别 #语音大模型 #对齐 #预训练 #零样本 ✅ 7.0/10 | 前25% | #语音识别 | #对齐 | #语音大模型 #预训练 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jing Peng(上海交通大学X-LANCE实验室,MoE人工智能重点实验室,江苏省语言计算重点实验室) 通讯作者:Kai Yu†(上海交通大学X-LANCE实验室,MoE人工智能重点实验室,江苏省语言计算重点实验室) 作者列表:Jing Peng(上海交通大学X-LANCE实验室等)、Yi Yang(上海交通大学X-LANCE实验室等)、Xu Li(思必驰科技股份有限公司)、Yu Xi(上海交通大学X-LANCE实验室等)、Quanwei Tang(苏州大学计算机科学与技术学院NLP实验室,思必驰科技股份有限公司)、Yangui Fang(华中科技大学电子信息与通信学院,思必驰科技股份有限公司)、Junjie Li(上海交通大学X-LANCE实验室等)、Kai Yu(上海交通大学X-LANCE实验室等) 💡 毒舌点评 亮点:论文巧妙地通过CTC后验模拟(CPS)将“文本-文本”对齐伪装成“语音-文本”对齐,思路新颖且实验验证了其在零样本ASR和多任务理解上的可行性,为解决语音大模型数据依赖问题提供了低成本路径。短板:尽管在MMSU上超越了几个知名模型,但其绝对准确率(40.48%)与顶尖多模态模型(如Qwen2.5-Omni的60.57%)相比仍有不小差距,表明纯文本对齐范式在捕获复杂语音语义信息上可能存在天花板。 📌 核心摘要 这篇论文旨在解决当前语音大语言模型(Speech LLMs)对齐训练依赖大规模音文配对数据、计算成本高且泛化能力有限的问题。为此,作者提出了TASU(Text-only Alignment for Speech Understanding),一种新颖的、仅使用文本数据进行跨模态对齐的范式。其核心方法包括两个部分:标签同步解码(LSD)和CTC后验模拟(CPS)。LSD用于在推理时对语音编码器输出的CTC后验进行压缩和去冗余,而CPS则在训练时将文本转录转化为模拟的“伪CTC后验”,从而仅用文本数据训练一个可训练的投影器(Projector),同时保持大语言模型(LLM)主干网络冻结。主要实验结果显示,在纯文本训练下,TASU实现了具有竞争力的零样本语音识别(在LibriSpeech上WER与使用配对数据的基线SLAM差距小于1.5%),并可作为课程学习的预训练阶段提升域泛化能力;在语音理解多任务测试中,TASU在MMSU基准上的准确率(40.32%)超越了SLAM-LLM(36.70%)、SALMONN-13B(25.84%)和GLM-4-Voice(35.51%)等模型。其实际意义在于大幅降低了语音大模型对齐阶段的数据门槛和训练成本。主要局限性在于,与当前最先进的、使用海量数据预训练的多模态模型相比,其绝对性能仍有差距,且CPS生成的伪后验与真实语音后验的分布差异有待进一步缩小。 🏗️ 模型架构 TASU模型的核心是建立一个统一的“后验接口”,用于训练和推理两个阶段,架构如下图所示。 (图1:TASU概览。训练阶段(左)仅使用文本输入;推理阶段(右)使用语音输入。) 组件与数据流: 训练阶段(仅文本): 输入:文本转录(如“Hello, this is Daniel speaking.”)。 文本编码器(Encoder Tokenizer):将文本分词并转换为ID序列。 CTC后验模拟(CPS)模块:这是核心创新之一。CPS将干净的文本ID序列(one-hot向量)转化为带有噪声的“伪CTC后验序列”。该过程模拟了真实CTC输出的特性(如空白帧、重复),具体包括随机标签平滑、随机删除和随机插入三个随机阶段。 可训练投影器(Projector):一个Linear-SiLU-Linear模块,将伪CTC后验映射到LLM的输入空间。仅投影器的参数在训练中更新。 冻结的大语言模型(LLM):接收投影器输出的特征,生成输出(如下一个词预测)。LLM参数全程冻结。 推理阶段(语音): 输入:原始语音波形。 语音编码器(Audio Encoder):论文使用SenseVoice-Small,将语音编码为隐藏状态,再经过CTC层得到真实的CTC后验序列。 标签同步解码(LSD)模块:这是另一个核心创新。LSD对真实CTC后验进行压缩,包括两步:(1) 空白帧移除:丢弃空白概率超过阈值τ的帧;(2) 连续帧合并:将连续相同符号的帧向量平均,形成一个紧凑的后验向量。此过程实现了约6倍的下采样,保留语义信息并去除冗余。 可训练投影器(Projector):与训练阶段相同,将LSD处理后的真实CTC后验映射到LLM输入空间。其权重已在文本训练阶段学得。 冻结的LLM:接收投影器输出,生成文本输出(如转录结果或对语音指令的理解回答)。 关键设计选择与动机: ...