Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models

📄 Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models #语音识别 #图神经网络 #提示调优 #语音大模型 🔥 8.0/10 | 前25% | #语音识别 | #图神经网络 | #提示调优 #语音大模型 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yuhang Lu(广西师范大学,教育区块链与智能技术重点实验室) 通讯作者:Li-e Wang*(广西师范大学,教育区块链与智能技术重点实验室);Linghui Meng†(东南大学,计算机科学与工程学院) 作者列表:Yuhang Lu(广西师范大学,教育区块链与智能技术重点实验室)、Li-e Wang*(广西师范大学,教育区块链与智能技术重点实验室)、Xianxian Li(广西师范大学,教育区块链与智能技术重点实验室)、Feng Yu(广西师范大学,教育区块链与智能技术重点实验室)、Linghui Meng†(东南大学,计算机科学与工程学院) 💡 毒舌点评 这篇论文的亮点在于其精巧的系统设计,将图神经网络用于声学-文本的细粒度对齐,并辅以复杂的无梯度优化策略,展现了扎实的工程创新和在“灰色盒”这一受限场景下解决实际问题的能力。但其优化策略(三重损失、Dirichlet先验、CMA-ES)的复杂度较高,且论文未提供任何开源代码,对于想快速复现或验证其优越性的读者而言,这无疑是一道高墙,使得漂亮的实验结果略显“空中楼阁”。 📌 核心摘要 本文旨在解决语音-语言模型(SLM)在灰色盒场景下(即模型参数冻结,仅有有限接口可注入提示)适配下游任务时面临的两大挑战:无梯度提示调优的低效不稳定,以及声学-文本对齐不足。为此,作者提出了一个轻量级的提示调优框架,其核心包含两个阶段:1) 图引导的跨模态对齐:利用图注意力网络(GAT)在联合表征空间中构建一个异构图,将声学节点和文本节点通过注意力边动态连接与聚合,实现鲁棒的跨模态对齐与融合,并通过一个对齐损失(公式10)进行监督。2) 渐进式无梯度优化策略:设计了一个两阶段优化目标(公式11),结合任务交叉熵、温度缩放蒸馏(公式12)和自适应高置信度一致性约束(公式14),并利用Dirichlet先验自适应调整各项权重,以稳定地优化提示。提示本身通过CMA-ES在低维子空间中联合生成声学和文本前缀。实验在LLaSO语料库的子集上进行,涉及语音识别(ASR)和多个副语言任务。结果显示,本方法在灰色盒约束下取得了优异性能(例如,ASR的WER为0.09,优于部分主流模型),同时在达到目标WER=0.15时,其时间-计算-内存开销优于基于强化学习的提示调优方法(RL-Prompt),并接近参数高效微调方法LoRA。消融实验证明了图对齐模块能有效提升语义级任务(如NER)的性能。本文的实际意义在于提供了一种在不修改主干参数的前提下,低成本、高效率适配语音-大语言模型的新范式。主要局限性在于优化策略的复杂性,以及论文未开源代码和详细复现信息。 🏗️ 模型架构 本文提出的“Grey-Box Prompt Tuning with Graph Alignment”框架旨在冻结的语音-语言模型(如Llama)中注入可学习的提示,以实现下游任务适配。其整体架构可分为图引导的跨模态对齐阶段和提示调优阶段。 图引导的跨模态对齐阶段 (Graph-guided Cross-modal Alignment Stage) 这一阶段的核心是构建一个连接声学和文本模态的异构图,并通过图神经网络进行信息聚合。 输入:一段语音波形及其对应的ASR转录文本。 节点初始化与表征: 声学节点:使用预训练的HuBERT编码语音得到帧级声学序列 S,再通过双向GRU获取上下文表征 si。随后,通过注意力池化进行下采样,得到固定数量的声学节点 xa_i。最后,通过线性投影 Wa 映射到共享语义空间,得到节点特征 za_i。 文本节点:使用文本编码器(未具体说明,可能是BERT类)对ASR文本编码得到词/子词嵌入 T,同样通过双向GRU和注意力池化下采样,再由线性投影 Wt 映射到共享空间,得到文本节点特征 zt_j。 边构建:采用二分图设计。计算声学节点到文本节点(sa->t_ij)和文本节点到声学节点(st->a_ji)的双向注意力分数,并进行softmax归一化和Top-K稀疏化,形成跨模态边。同时,添加自环(Aa->a, At->t)以保留节点自身信息。 图聚合:将跨模态边和自环边合并并归一化得到传播算子 Ã。通过标准的消息传递公式 H(l+1) = σ(Ã H(l) Wl) (公式9) 进行多层图卷积(论文中使用2层GAT),使得每个节点能聚合来自自身、模态内邻居和对齐的跨模态邻居的信息,实现细粒度融合。 对齐监督:引入对称化邻接矩阵作为对齐强度,定义几何正则化损失 Lalign (公式10),鼓励强连接的跨模态片段在表征空间中靠近。 提示调优阶段 (Prompt-tuning Stage) 这一阶段的目标是优化注入模型的提示(Prompt),以在灰色盒场景下稳定适配任务。 提示生成:采用联合声学-文本提示生成。为每个模态(声学/文本)分别学习一个前缀提示(Pa, Pt)。这些提示通过CMA-ES(协方差矩阵自适应进化策略)在一个低维内在子空间中优化,而非直接通过梯度下降。具体而言,一个软提示 z 从图聚合的均值初始化,然后通过可学习矩阵 W 投影到LLM的令牌空间:p = Wz。 渐进式两阶段优化:为解决无梯度优化不稳定问题,设计了统一目标 Ltotal(e) (公式11),它包含三项: 任务交叉熵 LCE:标准的监督信号。 温度缩放蒸馏 Ldist (公式12):让学生模型(带提示)的输出分布与教师模型(无提示)的分布对齐。温度 τ(e) 从高到低退火,初期允许宽松匹配,后期趋于严格。 自适应高置信度一致性 Lcons (公式14):仅在教师模型预测置信度超过动态阈值 θ(e) 的位置上,强制学生模型的logits与教师模型接近。 权重自适应:三项损失的权重 w(e) 服从Dirichlet先验 (公式15),根据各损失项大小自适应调整,减少手动调参。 输出:优化后的提示 P' = (Pa, Pt) 与冻结的语音和文本编码器、大语言模型一起,构成最终模型,用于下游任务。 架构图说明: 论文中提供了框架的整体示意图(图1,对应提供的图片列表中的图片)。 图1展示了完整的处理流程。左侧,语音经过“Speech Encoder”(如HuBERT)得到声学特征,文本经过“Text Prompt”模块。这些特征和提示一同输入到“GAT”模块进行跨模态对齐与融合。对齐后的声学特征(ZA)和文本特征(ZT)与各自的可学习提示(PA, PT)结合,通过“Cross Attention”等方式注入到冻结的“LLM”中。右下角展示了“Two-stage Optimization”的过程,包括无提示基线(“w/o prompts”)产生的教师分布和带提示模型(“w/ prompts”)产生的学生分布,通过计算KL散度等进行优化。顶部展示了联合提示生成的概念,声学和文本提示被共同优化。整个流程强调在“Grey-box slot”中操作,不修改主干参数(“Frozen”)。 ...

2026-04-29