LLM-Codec: Neural Audio Codec Meets Language Model Objectives
📄 LLM-Codec: Neural Audio Codec Meets Language Model Objectives #语音大模型, #预训练, #基准测试, #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Ho-Lam Chung (台湾大学 通信工程研究所, 华硕智能云服务) 通讯作者:Hung-yi Lee (台湾大学 人工智能卓越研究中心) 其他作者:Yiming Chen (华硕智能云服务) 💡 毒舌点评 亮点:精准地抓住了语音令牌化领域“重建质量”与“语言模型可预测性”之间的核心矛盾,并用一套设计精巧、实验扎实的“组合拳”(FTP+SA+Gumbel桥)漂亮地解决了问题,效果拔群。槽点:方法依赖语音-文本对齐(SA),这在非语音音频或无转录数据上就成了“阿喀琉斯之踵”,限制了其通用性;另外,训练时需要额外的前向传播和辅助模块,对计算资源是个小考验。 🔗 开源详情 代码与模型:论文明确承诺将开源,GitHub仓库地址为 https://github.com/voidful/llm-codec。截至论文阅读时(v1版本),代码和模型权重尚未发布。 预训练权重:基于AUV编码器和Qwen3-4B-Instruct语言模型进行微调。预计开源时会提供微调后的编码器权重。 在线Demo:论文中未提及。 依赖的开源项目:论文中引用了多个开源项目作为基线或组件,包括:AUV编码器、Qwen3大语言模型、EnCodec、SoundStream、BigCodec、UniCodec、WavTokenizer、LibriSpeech数据集、Codec-SUPERB评估工具、SALMon评估基准等。 📌 核心摘要 本文旨在解决语音语言模型(SLM)中一个根本性矛盾:神经音频编码器以波形重建为目标进行优化,而语言模型以序列预测为目标进行优化,这种目标不匹配导致生成的离散语音令牌熵值高、难以预测。为此,作者提出了LLM-Codec训练框架,在不改变编码器和语言模型架构的前提下,通过引入两个面向语言模型的正则化目标来重塑编码器:1)未来令牌预测(FTP),使用Medusa风格的多头结构预测多个未来令牌,鼓励令牌序列的局部可预测性;2)语义对齐(SA),通过对比学习将语音在冻结LLM中的隐藏状态与对应文本的隐藏状态对齐,确保令牌的语义一致性。一个可微分的Gumbel桥使得梯度能够端到端地回传至编码器。实验表明,LLM-Codec在SALMon语音连贯性基准上达到61.6%的准确率(比基线AUV高12.1个百分点),并将令牌级困惑度降低了35倍,同时在Codec-SUPERB-tiny基准上将语音Mel距离提升了5.0%,证明了重建质量与令牌可学习性可以协同提升。 🏗️ 模型架构 LLM-Codec的整体架构是一个增强型的神经音频编码器,其核心是在标准编码器-量化器-解码器流程中,插入了面向LLM的训练模块,并通过一个可微分的桥接器与冻结的LLM主干连接,实现端到端训练。 完整输入输出流程: 输入:原始音频波形 x。 编码与量化:音频 x 通过编码器 ℰ 得到连续潜变量 z,再通过量化器 𝒬(使用Gumbel-Softmax桥接)得到离散令牌 c。 LLM处理:离散令牌 c 通过音频令牌嵌入层 E_audio 转换为嵌入向量,输入到冻结的LLM主干(如Qwen3-4B)中,得到各层的隐藏状态 {h_t}。 辅助任务计算: 未来令牌预测(FTP):在LLM的最后一个隐藏状态上,连接K个Medusa头(线性层 M_k),分别预测当前时刻之后第k个未来令牌。 语义对齐(SA):从LLM的中间到高层(如第10-25层)提取语音序列的最后隐藏状态 h_audio,与对应文本通过相同且冻结的LLM得到的最后隐藏状态 h_text 进行对齐(余弦损失+对比损失)。 重建输出:离散令牌 c 通过解码器 𝒟 重建为音频波形 x̂。 损失计算与反向传播:总损失 ℒ_total 包含重建损失 ℒ_codec、桥接损失 ℒ_bridge、FTP损失 ℒ_FTP、语义对齐损失(ℒ_cos + ℒ_ctr)。梯度通过Gumbel桥反向传播至编码器 ℰ,从而优化编码器使其产生对LLM更友好的令牌。 主要组件与设计理由: ...