Relative Time Intervals Representation For Word-Level Timestamping With Masked Training
📄 Relative Time Intervals Representation For Word-Level Timestamping With Masked Training #语音识别 #大语言模型 #相对时间表示 #参数高效微调 #语音大模型 🔥 8.0/10 | 前25% | #语音识别 | #大语言模型 | #相对时间表示 #参数高效微调 学术质量 8.0/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Quanwei Tang(苏州大学) 通讯作者:Dong Zhang(苏州大学;江苏语言计算重点实验室) 作者列表:Quanwei Tang(苏州大学),Zhiyu Tang(昆士兰大学),Xu Li(AISpeech Ltd),Dong Zhang(苏州大学;江苏语言计算重点实验室),Shoushan Li(苏州大学),Guodong Zhou(苏州大学) 💡 毒舌点评 亮点在于用“相对时间间隔”替代“绝对时间戳”这一简单却有效的表示革新,直击现有方法词汇爆炸与误差累积的痛点,设计巧妙且实验收益显著。短板是创新主要停留在表示层面和训练技巧(如掩码概率固定为10%),对于时间建模本身(如动态间隔学习)的探索深度略显不足,更像是一个为特定任务设计的实用工程改进。 📌 核心摘要 问题:现有语音大模型在生成带时间戳的转录时,主要使用绝对时间戳,这会导致词汇表膨胀、误差累积传播,并且对超出训练时长范围音频的泛化能力差。 方法核心:提出用相对时间间隔(即相邻词之间的时间差)表示时间戳,替代绝对时间戳。同时,采用混合微调策略(对新增模块全参数微调,对骨干解码层使用LoRA)和时间戳掩码训练目标,以高效注入时间预测能力并提升鲁棒性。 创新点:首次在语音大模型中系统性地提出并验证了基于相对时间间隔的时间戳表示方法;引入时间戳掩码训练以防止模型过拟合于完美标注;设计了角色感知的混合参数高效微调策略。 主要实验结果:在LibriSpeech和Wenet-Meeting两个数据集上,本文方法(Relative Timestamp)在时间戳预测的精确率、召回率和平均时间差指标上均显著优于Qwen2-Audio、WhisperTimestamped、SenseVoiceSmall、Canary等基线模型以及论文内对比的绝对时间戳方法。例如,在Wenet-Meeting数据集上,240ms容差下,本文方法的精确率和召回率分别达到91.13%和86.88%,平均时间差仅30.34ms。消融实验表明,移除时间戳损失或时间戳掩码均会导致性能明显下降。 实际意义:使语音大模型从“内容理解机器”升级为“时间感知的内容理解机器”,为需要精确时序对齐的应用(如字幕生成、语音编辑、会议记录)提供了更优解决方案。 主要局限性:掩码训练策略相对简单(固定10%概率),未探讨更复杂的掩码或课程学习策略;相对时间间隔的范围(0-5秒)是否普适于所有语音场景有待验证;论文未详细分析模型在不同语速、不同噪声条件下的鲁棒性。 🏗️ 模型架构 论文中的架构对比图如下: 模型整体基于预训练的语音大模型(FireRedASR-LLM)架构,该架构由音频编码器、投影层、文本嵌入层、解码器层和语言模型头组成。主要创新在于时间戳生成部分的设计。 完整输入输出流程: 输入:语音音频特征 + 文本提示(如“Speech to text with timestamp.”)。 输出:带有时间戳标记的转录文本序列,例如 Hello <|0.60|> World <|0.32|> <|1.20|>。 主要组件与数据流: 音频编码器(Audio Encoder):使用Conformer架构,从原始语音中提取高层声学特征。 投影层(Proj):将音频特征映射到与语言模型兼容的维度。 文本嵌入层(Text Embedding):将输入的文本提示和生成的文本、时间戳令牌嵌入为向量。对于时间戳,模型引入了一个相对时间戳词汇表,例如 <|0.00|> 到 <|5.00|> 的令牌,代表0到5秒的时间间隔。 解码器层(Decoder Layers):基于Qwen2-7B-Instruct的自回归解码器。在生成每个令牌时,会结合之前的上下文(包括文本和已生成的时间戳令牌)。 语言模型头(LM Head):将解码器的输出映射到整个词汇表(包含文本令牌和相对时间戳令牌)的概率分布,以自回归方式预测下一个令牌(文本或时间戳)。 关键设计选择: 相对时间戳表示:这是架构的核心变化。每个时间戳令牌 <|Δt|> 表示从前一个词结束到当前词开始的时间间隔。这避免了为绝对时间点创建大量令牌,且与自回归生成的模式天然契合(预测下一段持续时间)。 混合微调策略:为高效适配新任务,对新增的时间戳嵌入层和语言模型头进行全参数微调,因为它们初始权重随机,需要全面更新。对骨干解码器层使用LoRA(Low-Rank Adaptation) 进行微调,冻结原始权重,仅插入少量可训练的低秩矩阵,在保留预训练语言知识的同时高效学习插入时间戳标记。 时间戳掩码训练:训练时,随机将部分时间戳令牌替换为 [MASK],迫使模型不能依赖前一个时间戳的真值,而必须根据语音内容和历史上下文来预测当前时间间隔,从而提升对噪声标注的鲁棒性,防止过拟合。 💡 核心创新点 相对时间间隔表示法 ...