统一音频模型

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

📄 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions #音频生成 #流匹配 #扩散模型 #统一音频模型 #语音合成 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chunyu Qiang（天津大学，快手科技）通讯作者：Longbiao Wang（天津大学）， Jianwu Dang（天津大学）作者列表：Chunyu Qiang（天津大学，快手科技）、Xiaopeng Wang（快手科技）、Kang Yin（快手科技）、Yuzhe Liang（快手科技）、Yuxin Guo（快手科技，中国科学院自动化研究所）、Teng Ma（快手科技）、Ziyu Zhang（快手科技）、Tianrui Wang（天津大学）、Cheng Gong（天津大学）、Yushen Chen（快手科技）、Ruibo Fu（中国科学院自动化研究所）、Chen Zhang（快手科技）、Longbiao Wang（天津大学）、Jianwu Dang（天津大学） 💡 毒舌点评亮点：论文真正实现了语音、音乐、音效的“三合一”生成，且通过精巧的“动态token注入”和“课程学习”让这个庞然大物不仅能跑，还在语音和音乐的主流评测中刷出了新SOTA，证明了“团结就是力量”。短板：在音效生成这个“混沌领域”，这个统一模型还是打不过那些专精于此的专门模型（如GenAU-L），并且论文未开源代码和模型，让其优秀的实验结论暂时停留在了“可看不可摸”的阶段。 ...

Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别 #端到端 #流式处理 #统一音频模型 #模型评估 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #流式处理 #统一音频模型 | arxiv 学术质量 7.5/7 | 选题价值 0.8/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Andrei Andrusenko (NVIDIA, Armenia) 通讯作者：未说明作者列表： Andrei Andrusenko (NVIDIA, Armenia) Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Vitaly Lavrukhin (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评亮点：MCR-RNNT正则化方法设计巧妙，通过强制离线和流式模式在RNNT联合网络输出层面保持一致，有效缓解了低延迟下的性能崩塌，且其实现的Triton内核保证了训练效率。短板：尽管在多个延迟点上取得了SOTA，但在极端低延迟（如0.16s）场景下，统一模型仍略逊于专门为流式优化的基线，表明“统一”与“极致性能”之间仍存在根本性张力。 ...

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

📄 UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction #语音对话系统 #统一音频模型 #流式处理 #音视频 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Yadong Li (adonlee.lyd@alibaba-inc.com) 通讯作者：Biye Li (libiye.lby@alibaba-inc.com) 其他作者：Guoxin Wu (guoxin.wgx@taobao.com), Haiping Hou (houhaiping.hhp@taobao.com) 所属机构：阿里巴巴集团 (Alibaba Inc.) 💡 毒舌点评亮点：这篇论文最“性感”的地方在于它极具野心的“大一统”思想——把语音交互前端那些乱七八糟的独立模块（VAD、ASR、说话人识别…）全部塞进一个LLM里，还用个参考音频当“声纹钥匙”，想法非常超前且直击级联系统的痛点。槽点：工程“黑盒”感有点强，比如那个600ms的音频块具体怎么切分、参考音频的注册和注意力机制如何在流式推理中高效运作，细节不够透明，让人担心实际部署时的复杂度和计算开销。 🔗 开源详情论文中未提及任何开源计划。全文未提供代码、模型权重、数据集或在线Demo的获取方式。虽然引用了GitHub Issue模板，但明确说明“Submit without GitHub”，表明论文发表本身不伴随开源动作。 📌 核心摘要核心贡献：本文提出了首个专为全双工语音交互设计的统一音频前端大模型（UAF）。它打破了传统级联式前端处理的范式，将语音活动检测（VAD）、说话人识别（SR）、自动语音识别（ASR）、轮次检测（TD）和问答（QA）等多个任务，统一建模为一个自回归序列预测问题。关键方法：模型采用“音频编码器-投影器-LLM”架构。输入为流式的固定时长（600ms）音频块和一个用于锁定目标说话人的参考音频提示。输出为两类离散令牌：状态令牌（如<TALK>, <SIL>, <Complete>, <Interrupt>）用于交互控制；语义令牌（ASR文本和模型回复）。通过多阶段对齐训练策略，模型学会了在噪声和混叠语音环境中，基于参考音频隐式地抑制干扰、聚焦目标说话人，并联合预测语义内容和交互状态。主要发现：实验表明，UAF在多项独立前端任务上达到SOTA水平。其最大优势体现在说话人感知ASR上：在极低信噪比（2dB）条件下，WER相比强大的基线模型（Qwen3-Omni）降低了7倍以上（5.34 vs 38.6）。在轮次检测任务上，对<Interrupt>和<Backchannel>等关键交互状态的识别准确率显著优于专用模型，证明了统一建模对理解对话动态的有效性。实际意义与局限性：UAF为构建低延迟、高鲁棒性、交互自然的全双工语音系统提供了全新的、一体化的解决方案，有望简化系统架构并提升用户体验。其局限性包括：模型参数量较大（30B-A3B），对计算资源要求高；训练严重依赖大规模的合成数据管道，其真实世界泛化能力需进一步验证；论文未开源，限制了社区的复现与跟进。 🏗️ 模型架构 UAF的整体架构是一个适配了音频能力的“编码器-投影器-大语言模型”框架，核心是将音频流与文本生成统一在自回归解码过程中。完整输入输出流程：输入：参考音频 (A_ref)：一段3-5秒的目标说话人纯净语音，用于注册说话人身份。系统提示 (System Prompt)：定义任务和输出格式的文本指令。流式音频块 (A_stream)：连续的、固定时长为600毫秒的音频片段序列 {a_1, a_2, ..., a_t}。这些音频块可能包含目标说话人语音、噪声、混响、其他说话人语音以及系统回声。编码与投影：参考音频和每一个流式音频块都通过同一个音频编码器（文中未指定具体结构，但应为预训练模型）转换为高维声学特征向量。这些声学特征向量随后通过一个音频投影器（一个可训练的神经网络层）映射到LLM的语义嵌入空间，得到对齐后的音频令牌 a_ref 和 a_t。自回归解码： LLM骨干网络（基于Qwen3-Omni-30B-A3B-Instruct）接收一个拼接的序列作为输入：[System Prompt, a_ref, a_1, [x_1; s_1], a_2, [x_2; s_2], ..., a_t]。其中 [x_i; s_i] 表示第i个时间步生成的语义令牌和状态令牌。 LLM根据历史上下文（所有之前的音频令牌和生成的令牌）进行解码，在当前时间步t，它需要预测两部分：状态令牌 (s_t)：由两个独立的轻量级任务头从LLM的隐藏状态h_t中预测。 VAD头：输出 <SIL> 或 <TALK>，表示当前音频块是否包含目标说话人的有效语音活动。轮次头 (Turn Head)：输出 <Complete>, <InComplete>, <Interrupt>, <Backchannel> 中的一个，表示对话轮次状态。语义令牌 (x_t)：由LLM主干的语言模型头 (LM Head) 预测。仅当轮次状态为<Complete>或<Interrupt>时，模型才会生成包含<AsrStart>…<AsrEnd>的ASR结果，以及可能的<AnswerStart>…<AnswerEnd>的回复。输出：在每个时间步t，模型输出一个包含状态令牌和（可能的）语义令牌的序列，用于驱动下游的对话管理系统和语音合成系统。关键组件与设计理由： ...

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

📄 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs #音频理解 #统一音频模型 #强化学习 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Linhao Zhang（腾讯微信AI，基础模型技术中心）通讯作者：推断为 Houfeng Wang（北京大学计算机科学学院，多媒体信息处理国家重点实验室）和 Xiao Zhou（腾讯微信AI，基础模型技术中心），基于资深作者位置及实验室负责人身份。其他作者： Yuhan Song（北京大学计算机科学学院，多媒体信息处理国家重点实验室） Aiwei Liu（腾讯微信AI，基础模型技术中心） Chuhan Wu（腾讯微信AI，基础模型技术中心） Sijun Zhang（腾讯微信AI，基础模型技术中心） Wei Jia（腾讯微信AI，基础模型技术中心） Yuan Liu（腾讯微信AI，基础模型技术中心） 💡 毒舌点评亮点：这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点，并一针见血地指出病根在于ASR（语音识别）的“填鸭式”教学——只教认字，不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”，强制它去听语气、听环境，效果立竿见影。槽点：方法虽好，但“药方”（训练数据）全靠其他模型“合成”，虽然做了人工验证，但终究是“二手信息”，长期来看可能限制模型感知能力的上限。另外，论文主要在高资源语言（中英文）上验证，对于方言或低资源语言的效果还是个问号。 🔗 开源详情代码与模型：论文明确声明代码和模型已公开，地址为：https://github.com/Tencent/Unified_Audio_Schema。但截至分析时，该链接的有效性及具体内容（如star数、框架）需进一步核实。数据集：UAS训练数据是通过自动化流水线从现有数据集合成的，论文未提及是否单独公开该合成后的UAS格式数据集。预训练权重：基于Qwen2.5-7B构建，但未提及是否单独提供预训练权重。在线Demo：论文中未提及。依赖的开源项目：论文中明确引用了多个开源模型和数据集，如Qwen系列模型、StableToken、HiFi-GAN、LibriSpeech、GigaSpeech等。 📌 核心摘要这篇论文旨在解决当前音频大语言模型（AudioLLMs）在细粒度声学感知任务上表现不佳的核心问题。作者指出，主流的以自动语音识别（ASR）为中心的训练范式，通过将音频映射到纯文本转录，系统性地丢弃了副语言学（如情感、语调）和非语言声学事件信息，导致模型成为“语言巨人，听觉矮子”。为此，他们提出了一种统一音频模式（UAS），这是一种结构化的JSON表示，将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分，从而在训练中保留完整的声学线索。基于UAS，作者构建了可扩展的自动数据生成流水线，并训练了UAS-Audio模型。实验表明，UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升，同时保持了强大的推理能力，并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号，是提升AudioLLMs综合能力的有效途径。 🏗️ 模型架构 UAS-Audio的整体架构遵循当前主流的连续表示AudioLLM范式，包含四个核心组件，其输入输出流程如下：输入：原始音频波形。输出：文本（如转录、问答、结构化UAS）或生成的语音波形。核心组件与数据流：音频编码器：使用AuT (Audio Transformer) 作为连续音频编码器。它将原始波形转换为连续的音频表示向量序列。投影层：一个简单的线性投影层。它将音频编码器输出的向量映射到与大语言模型（LLM）词嵌入空间对齐的维度。这是连接音频与文本模态的关键桥梁。大语言模型骨干：采用Qwen2.5-7B作为核心推理引擎。它接收来自投影层的音频特征和文本提示的嵌入，进行自回归解码，生成文本响应。在训练的某些阶段，LLM也被扩展以处理离散音频令牌。语音解码器：基于流匹配（Flow Matching）架构，并配备HiFi-GAN声码器。当需要语音生成时，LLM输出的离散音频令牌（来自StableToken）被送入此解码器，先转换为梅尔频谱图，再合成最终波形。训练阶段与模块状态：阶段1：离散令牌对齐：仅训练LLM的嵌入层和输出头，通过ASR和TTS任务，让LLM学会处理离散音频代码，为语音生成做准备。阶段2：音频LLM适应：冻结LLM和音频编码器，仅训练投影层。使用UAS标注数据进行训练，使模型从一开始就建立对结构化声学信息的理解。阶段3：全指令调优：解冻除音频编码器外的所有参数。在混合数据（基础音频数据、UAS标注、UAS-QA）上进行多任务训练，综合提升感知、推理和生成能力。阶段4：GRPO：使用群体相对策略优化（GRPO）进行强化学习，进一步提升模型性能。架构选择理由：该设计复用了经过验证的成熟组件（如Qwen2.5、流匹配解码器），创新点不在于模块本身，而在于如何使用UAS数据来训练这些模块，特别是通过阶段2的针对性适应，避免了模型陷入传统的ASR中心表征。 ...

On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation

📄 On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation #知识蒸馏 #自监督学习 #统一音频模型 #音频理解 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Changhao Cheng (上海交通大学，人工智能学院) 通讯作者：Yanmin Qian (上海交通大学，人工智能学院；听觉认知与计算声学实验室，教育部人工智能重点实验室) (推断，基于其资深作者身份及实验室负责人角色) 其他作者： Wei Wang (上海交通大学，人工智能学院) Wangyou Zhang (上海交通大学，计算机科学学院，听觉认知与计算声学实验室，教育部人工智能重点实验室) Dongya Jia (上海交通大学，人工智能学院) Jian Wu (字节跳动 Seed) Zhuo Chen (上海交通大学，人工智能学院) 💡 毒舌点评亮点在于它像一个严谨的“调音师”，系统性地探索了语音VAE蒸馏损失的“调音旋钮”（时间轴、维度轴、联合边际），并找到了让重建、理解、生成这三个“声部”和谐共奏的新配方（JMAS-VAE）。槽点则是这“新配方”的调制过程有点复杂，引入的自适应权重和边际参数增加了训��和调参的“玄学”成分，且实验结论高度依赖于所选的教师模型（WavLM），换一个“老师”可能结论又得重写。 🔗 开源详情代码：论文明确提及代码已开源，GitHub地址为：https://github.com/changhao-cheng/JMAS-VAE。使用框架为 stable-audio-tools。模型权重：论文中未明确说明是否公开模型权重，但根据开源代码的惯例，很可能会在GitHub或HuggingFace上提供。论文提到“release models and code”。数据集：训练和评估所用数据集（Libriheavy, LibriSpeech, LibriTTS）均为公开学术数据集。预训练权重：使用了公开的预训练模型：WavLM Large (用于提取教师特征)、DAC编码器和BigVGAN解码器 (作为VAE骨干)。在线Demo：论文中未提及在线演示。依赖的开源项目： stable-audio-tools (Stability AI) WavLM (Microsoft) F5-TTS (用于生成任务评估) Vocos (用于重建任务评估的声码器) Libriheavy, LibriSpeech, LibriTTS 数据集。 📌 核心摘要本文针对现有语音变分自编码器（VAE）在统一语音重建、理解和生成任务上表现不平衡的问题（尤其是理解能力差），系统性地研究了蒸馏损失函数的设计空间。作者探索了三种将自监督学习（SSL）模型知识蒸馏到VAE潜在空间的方式：时间轴对齐（TAS）、维度轴对齐（DAS）和联合边际对齐（JMAS）。关键创新在于提出了JMAS损失，它不仅进行逐帧对齐，还通过边际余弦相似度和边际距离序列相似度损失来约束特征分布的结构一致性。此外，论文引入了基于梯度范数的自适应加权策略来动态平衡各项损失。大量实验表明，采用自适应加权的JMAS-VAE在重建、理解和生成三项任务的综合得分上取得了最优平衡，显著优于传统VAE和仅进行时间轴对齐的语义VAE。研究揭示了不同对齐方式对语义和声学信息保留的偏向性，为设计统一的语音表示提供了重要见解。 ...