UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception
📄 UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception #语音合成 #语音识别 #多模态模型 #低资源 🔥 10/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 学术质量 6.5/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Yuhan Song¹, Linhao Zhang², Aiwei Liu², Chuhan Wu², Sijun Zhang², Wei Jia², Yuan Liu², Houfeng Wang¹, Xiao Zhou² (通讯作者) 机构:¹北京大学计算机科学学院,多媒体信息处理国家重点实验室;²腾讯微信事业群基础模型技术中心 💡 毒舌点评 这篇论文切中了当前Audio-LLM领域一个真实且重要的痛点:语义语音分词器为了对齐文本,把音频里丰富的声学细节给“弄瞎”了,导致处理音乐、环境音时抓瞎。提出的SAP监督和SAE门控机制在思路上确实巧妙且直觉上合理,实验数据也显示出全面的性能提升。然而,其“通用”的宣称可能有些过于乐观——训练和评估仍重度依赖英语和中文资源,非语音音频的重建质量也承认远不如专用编解码器。此外,其数据创建流程完全依赖Qwen3系列大模型,这本身就引入了新的偏差和可复现性门槛。总的来说,这是一篇扎实的、解决了具体问题的增量工作,但距离真正的“通用音频接口”还有明显距离,尤其在多语言覆盖和高保真非语音重建方面。 📌 核心摘要 本文针对现有语义语音分词器在通用音频感知上的“声学失明”(acoustic blindness)问题,提出了UniAudio-Token框架。该框架旨在不牺牲语音生成能力的前提下,为语义分词器赋予通用音频感知能力。其核心创新包括两点:(1)语义-声学原语(Semantic-Acoustic Primitives, SAP):一种结构化监督协议,将音频分解为语言内容、声音属性和听觉场景原语进行监督,以解耦内容与风格。(2)语义-声学平衡(Semantic-Acoustic Equilibrium, SAE):一种内容感知的门控机制,能够自适应地从浅层注入细粒度声学细节到深层语义流中,以缓解声学失明,同时不破坏语义表征。大量实验证明,UniAudio-Token学到了全面的通用表征,同时保持了高保真度的语音生成。当集成到下游LLM中,其在理解和生成任务上均超越了所有单码本基线分词器。 🔗 开源详情 代码:https://github.com/Tencent/Universal_Audio_Tokenizer (包含训练和推理脚本) 模型权重:论文明确在摘要和引言中声明,将随代码仓库发布模型检查点(checkpoints),但未提供独立的HuggingFace或ModelScope链接。 数据集:训练使用了多个公开数据集,论文附录C.1(表7)提供了完整列表和时长。具体数据集获取方式通常如下: LibriSpeech: https://www.openslr.org/12 Multilingual LibriSpeech: https://github.com/facebookresearch/libri-light GigaSpeech: https://github.com/SpeechColab/GigaSpeech Yodas: https://github.com/facebookresearch/yodas Hi-Fi TTS: 论文引用Bakhturina et al., 链接可能为 https://github.com/keithito/tacotron-2-data 或相关发布。 VCTK: https://datashare.ed.ac.uk/handle/10283/2651 LibriTTS: https://www.openslr.org/60 AISHELL-1: https://www.openslr.org/33 WenetSpeech: https://github.com/wenet-e2e/WenetSpeech Common Voice: https://commonvoice.mozilla.org/ Emilia: https://github.com/EMI-PMC/emilia-dataset AudioSet: https://research.google.com/audioset/ Demo:论文中未提及在线演示链接。 复现材料:提供了完整的训练细节,包括数据集组成(附录C.1, 表7)、超参数配置(附录C.2, 表8)。SAP数据标注样例见附录A(图5-7)。 论文中引用的其他开源项目: WavTokenizer: https://github.com/jishengpeng/WavTokenizer CosyVoice: https://github.com/FunAudioLLM/CosyVoice GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice StableToken: 论文中未提供明确链接。 Whisper: https://github.com/openai/whisper (使用whisper-large-v3) Qwen3系列模型:论文用于生成SAP数据和评估,但未提供具体下载链接。 Qwen2.5: 用于下游Audio-LLM实验,未提供链接。 MOSNet: https://github.com/dongchao-py/MOSNet CAM++: https://github.com/alibaba/damo-academy ERes2Net: 论文中提及但未提供链接。 🏗️ 方法概述和架构 UniAudio-Token 的核心目标是解决语义语音分词器的“声学失明”问题,即它们为了对齐语言内容而主动抑制声学细节,导致其在非语音任务上表现不佳。该方法通过两个核心组件协同工作:SAP(解决监督冲突)和SAE(解决架构瓶颈),最终输出一个能统一表征语音和通用音频的离散码本。 ...