音频大模型

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models #音乐分离， #自回归模型， #大语言模型， #音频大模型 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者/通讯作者：彭博吕 (Pengbo Lyu) （阿里巴巴通义应用业务组，中国）其他作者：赵翔宇 (Xiangyu Zhao) （阿里巴巴通义应用业务组，中国）刘成伟 (Chengwei Liu) （阿里巴巴通义应用业务组，中国）闫浩音 (Haoyin Yan) （阿里巴巴通义应用业务组，中国）梁晓涛 (Xiaotao Liang) （阿里巴巴通义应用业务组，中国）王宏宇 (Hongyu Wang) （阿里巴巴通义应用业务组，中国）薛少飞 (Shaofei Xue) （推断，根据邮箱mullerxue@126.com，可能为独立研究者或与阿里巴巴合作） 💡 毒舌点评亮点：成功把“分离”这个传统的“信号复原”问题，包装成了“生成”问题，用上了时髦的大语言模型，思路清奇，算是在音频领域给LLM找到了一个新“乐子”。槽点：处理鼓点这种“快准狠”的声音还是不行，暴露了自回归模型“慢工出细活”的本质短板；更尴尬的是，训练用的“标准答案”（伪标签）还是隔壁BS-RoFormer模型生成的，有种“用老师教学生，还怪学生超不过老师”的黑色幽默。 🔗 开源详情代码：论文中提供了GitHub链接（https://anonymous.4open.science/w/mss-demo-page-2F80/），表明代码已开源。模型权重：论文中未明确说明是否公开预训练模型权重。数据集：训练使用内部大规模数据集（未公开），评估使用公开的MUSDB18-HQ数据集。在线Demo：论文提供了演示页面链接（https://anonymous.4open.science/w/mss-demo-page-2F80/）。依赖的开源工具/模型： BS-RoFormer：用于生成伪标签的SOTA分离模型。 HCodec：用于音频令牌化和重构的双路径编解码器。 HuBERT：用于提取语义特征的预训练语音模型。 Silero VAD：用于语音活动检测。 LLaMA：作为解码器-only语言模型的架构基础。 MUSDB18-HQ：公开的评估数据集。 📌 核心摘要本文提出了一种用于多轨音乐源分离的生成式框架，其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号，而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后，一个基于Conformer的条件编码器从混合音频中提取特征，作为解码器-only大语言模型（LLaMA架构）的条件前缀。该语言模型以自回归的方式，按照固定顺序（人声、鼓、贝斯、其他）依次生成四个目标轨道的令牌序列，最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明，该生成方法在整体感知质量（ViSQOL）上接近顶尖的判别式方法（如BS-RoFormer），并且在人声轨道的NISQA感知质量评分上取得了最高分（2.50）。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而，该方法在处理具有尖锐瞬态的鼓组时性能存在差距，且依赖于其他模型的伪标签进行训练，这限制了其性能上限。 ...

NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages

📄 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages #语音翻译 #音频大模型 #低资源 #基准测试 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Marie Maltais (Mila - Quebec AI Institute, McGill University) 通讯作者：David Ifeoluwa Adelani (Mila - Quebec AI Institute, McGill University, Canada CIFAR AI Chair) （根据作者列表末尾和机构推断）其他作者： Yejin Jeon (Mila - Quebec AI Institute, McGill University) Min Ma (Google DeepMind) Shamsuddeen Hassan Muhammad (Hausa NLP, Imperial College London) Idris Abdulmumin (Hausa NLP, University of Pretoria) Maryam Ibrahim Mukhtar (Hausa NLP) Daud Abolade (Masakhane NLP) Joel Okepefi, Johnson Sewedo (Naija Wikipedia Community) 💡 毒舌点评亮点：这篇论文是“数据正义”的典范，为长期被忽视的非洲语言搭建了一个坚实、多口音的语音翻译擂台，并拉来了所有主流方法（级联、端到端、AudioLLM）进行了一场公开、细致的比武大会，数据收集流程堪称教科书级别。槽点：创新主要集中在数据构建和基准测试本身，模型方法上基本是“拿来主义”进行评测，缺乏针对低资源场景的原创性模型设计或训练策略突破，读起来有点像一份豪华版的数据收集与模型测评报告。 ...

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #音频大模型 #多模态模型 #数据集 ✅ 评分：6.5/10 | arxiv 👥 作者与机构作者：Xiquan Li, Aurian Quelennec, Slim Essid 论文中未明确标注作者所属机构（无机构名称、邮箱或地址信息）。 💡 毒舌点评亮点：用 229M 参数的“小不点”在乐器识别上干翻了 8B 参数的巨无霸，堪称音乐 AI 界的“蚁人”——小而强悍。槽点：模型架构基本是“MATPAC++ 和 SmolLM2 的包办婚姻”，9M 的投影器充当媒婆，核心工作量似乎全花在造 350 万条 QA 数据上了；而且既然叫 TinyMU，能不能把 135M 的 LLM 也再压缩压缩？ 🔗 开源详情代码：论文中未提及是否开源。模型权重：论文中未提及是否公开。数据集：论文中未提及是否公开获取方式。预训练权重：论文中未提及。在线 Demo：论文中未提及。依赖开源项目：MATPAC++、SmolLM2、CLAP、ChatGPT（用于数据生成）。 📌 核心摘要本文针对现有大型音频语言模型（LALM）参数庞大（数十亿级）、训练推理成本高、难以部署在边缘设备的问题，提出了 TinyMU——一个仅有 229M 参数的紧凑音乐语言模型。为此，作者构建了 MusicSkills-3.5M 数据集，包含 350 万个涵盖多选、二元判断和开放式格式的音乐问答样本，结合基于规则与 LLM 辅助的数据合成方法，覆盖流派、乐器、情绪、结构等多维度音乐知识。TinyMU 采用 MATPAC++（85M）作为自监督音频编码器提取细粒度特征，通过仅含两层线性层的轻量投影器（9M）与 SmolLM2-135M 语言模型对齐，并在训练时冻结编码器。实验表明，TinyMU 在乐器识别（Medley-Solos-DB）上甚至超过 8B 模型，在 MuChoMusic 推理基准上达到 SOTA 模型的 82%，同时体积缩小 35 倍。然而，论文在训练超参数、硬件开销等方面披露不足，且未开源。 ...

Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models

📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频大模型 #多模态模型 #自监督学习 #知识蒸馏 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Longhao Li (西北工业大学，计算机科学学院，音频、语音与语言处理组 (ASLP@NPU)) 通讯作者：Lei Xie (西北工业大学，计算机科学学院，ASLP@NPU)，Yongxiang Li (西北工业大学，计算机科学学院，ASLP@NPU) （根据论文中提供的联系邮箱推断）其他作者： Hongjie Chen (中国电信人工智能研究院 (TeleAI)) Zehan Li (西北工业大学，计算机科学学院，ASLP@NPU) Qihan Hu (西北工业大学，计算机科学学院，ASLP@NPU) Jian Kang (西北工业大学，计算机科学学院，ASLP@NPU) Jie Li (中国电信人工智能研究院 (TeleAI)) 💡 毒舌点评亮点：这篇论文最亮眼的是其“全开源”的承诺和“自蒸馏”策略，构建了一个从数据到模型的完整音频推理解决方案，直接挑战了依赖闭源API（如Gemini）的“捷径”做法，为社区提供了宝贵的可复现基准。槽点：然而，讽刺的是，其评估体系的核心——MMAR基准测试的“评分细则（rubric）”——仍然依赖闭源的Gemini 2.5 Pro生成，这使得其“超越闭源模型”的结论在评估公正性上存在一丝“用对手的尺子量自己”的微妙尴尬。 🔗 开源详情代码：论文中提到代码将开源，并提供了匿名GitHub链接：https://anonymous.4open.science/r/Audio-Cogito-0E6E。使用了ms-swift训练框架。模型权重：论文中提到Audio-Cogito基于Qwen3-Omni-Thinking，但未明确说明是否会单独发布微调后的模型权重。通常此类工作会随论文发布。数据集：明确承诺开源。包含54.5万个高质样本，覆盖多音频域。获取地址同上述GitHub链接。预训练权重：基于开源的Qwen3-Omni-Thinking模型。在线Demo：论文中未提及。引用的开源项目：主要依赖ms-swift框架，以及基座模型Qwen3-Omni-Thinking。数据来源均为公开数据集（AudioSet, Clotho等）。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALMs）在复杂音频推理任务上能力不足且依赖昂贵闭源数据的问题。作者提出了一个名为Audio-Cogito的全开源解决方案，其核心是Cogito-Pipe——一个四阶段自动化数据构建流水线，用于生成高质量、多样化的音频推理链（CoT）数据。该流水线通过整合多源音频元数据、利用模型自身进行自蒸馏生成推理轨迹，并辅以质量验证，最终构建了一个包含54.5万个样本的大规模开源数据集。基于此数据集，作者采用自蒸馏策略对基座模型（Qwen3-Omni-Thinking）进行微调。实验表明，Audio-Cogito在专门评估推理过程的MMAR基准测试上，取得了开源模型中的最佳性能，平均准确率达71.70%，甚至在部分指标上超越了Gemini 2.0 Flash等闭源系统，同时其推理链的质量（Rubrics Score 62.22%， CRS 0.87）也得到显著提升。该工作为推动音频模态的深度、可解释推理提供了重要的开源资源和方法论参考。 ...

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Zixuan Chen（上海交通大学）通讯作者：Tanfeng Sun，Xinghao Jiang（上海交通大学，根据论文作者顺序及常见通讯作者标注习惯推断）其他作者： Depeng Wang（蚂蚁集团） Hao Lin（香港中文大学） Li Luo（上海交通大学） Ke Xu（上海交通大学） Ya Guo（蚂蚁集团） Huijia Zhu（蚂蚁集团） 💡 毒舌点评这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板，并为此量身打造了一个大规模、系统化的测试基准，堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控，但过于依赖外部大模型（Gemini）进行策略规划，且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距，有点像在实验室里精心布置的“找茬游戏”考场。 🔗 开源详情代码：论文中提到GitHub仓库（https://github.com/），但未给出完整链接。计划开源。模型权重：AVID-Qwen基于Qwen3-Omni-30B-A3B-Instruct微调。论文提到将在HuggingFace上发布模型权重。数据集：AVID基准计划公开，包含全视频和片段级子集。预训练权重：使用公开的Qwen3-Omni-30B-A3B-Instruct作为骨干。在线Demo：论文中未提及。引用的开源项目：策略智能体：Gemini 3.1 Pro (Google)。注入器工具：FFmpeg, Demucs (音频分离), Silero VAD, MediaPipe。基座模型：Qwen3-Omni。微调框架：SWIFT。数据来源：LongVALE数据集。 📌 核心摘要这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件，要么局限于检测深度伪造中的低级伪影，无法评估模型对长视频中语义级矛盾的理解。为此，作者提出了AVID，首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线：首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割，然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型（共8类），最后通过五个专门的注入器（如时间偏移、语义矛盾、身份修改等）生成不一致视频。基于此，他们构建了包含11.2K长视频（平均235.5秒）、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明，现有顶尖模型（包括Gemini 3.1 Pro）在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen，其在时间定位（mIoU: 36.1% vs 26.2%）和整体理解（SODA-m: 7.47 vs 6.15）上超越了所有对比模型，验证了该基准的有效性。 ...

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

📄 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs #音频理解 #统一音频模型 #强化学习 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Linhao Zhang（腾讯微信AI，基础模型技术中心）通讯作者：推断为 Houfeng Wang（北京大学计算机科学学院，多媒体信息处理国家重点实验室）和 Xiao Zhou（腾讯微信AI，基础模型技术中心），基于资深作者位置及实验室负责人身份。其他作者： Yuhan Song（北京大学计算机科学学院，多媒体信息处理国家重点实验室） Aiwei Liu（腾讯微信AI，基础模型技术中心） Chuhan Wu（腾讯微信AI，基础模型技术中心） Sijun Zhang（腾讯微信AI，基础模型技术中心） Wei Jia（腾讯微信AI，基础模型技术中心） Yuan Liu（腾讯微信AI，基础模型技术中心） 💡 毒舌点评亮点：这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点，并一针见血地指出病根在于ASR（语音识别）的“填鸭式”教学——只教认字，不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”，强制它去听语气、听环境，效果立竿见影。槽点：方法虽好，但“药方”（训练数据）全靠其他模型“合成”，虽然做了人工验证，但终究是“二手信息”，长期来看可能限制模型感知能力的上限。另外，论文主要在高资源语言（中英文）上验证，对于方言或低资源语言的效果还是个问号。 🔗 开源详情代码与模型：论文明确声明代码和模型已公开，地址为：https://github.com/Tencent/Unified_Audio_Schema。但截至分析时，该链接的有效性及具体内容（如star数、框架）需进一步核实。数据集：UAS训练数据是通过自动化流水线从现有数据集合成的，论文未提及是否单独公开该合成后的UAS格式数据集。预训练权重：基于Qwen2.5-7B构建，但未提及是否单独提供预训练权重。在线Demo：论文中未提及。依赖的开源项目：论文中明确引用了多个开源模型和数据集，如Qwen系列模型、StableToken、HiFi-GAN、LibriSpeech、GigaSpeech等。 📌 核心摘要这篇论文旨在解决当前音频大语言模型（AudioLLMs）在细粒度声学感知任务上表现不佳的核心问题。作者指出，主流的以自动语音识别（ASR）为中心的训练范式，通过将音频映射到纯文本转录，系统性地丢弃了副语言学（如情感、语调）和非语言声学事件信息，导致模型成为“语言巨人，听觉矮子”。为此，他们提出了一种统一音频模式（UAS），这是一种结构化的JSON表示，将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分，从而在训练中保留完整的声学线索。基于UAS，作者构建了可扩展的自动数据生成流水线，并训练了UAS-Audio模型。实验表明，UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升，同时保持了强大的推理能力，并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号，是提升AudioLLMs综合能力的有效途径。 🏗️ 模型架构 UAS-Audio的整体架构遵循当前主流的连续表示AudioLLM范式，包含四个核心组件，其输入输出流程如下：输入：原始音频波形。输出：文本（如转录、问答、结构化UAS）或生成的语音波形。核心组件与数据流：音频编码器：使用AuT (Audio Transformer) 作为连续音频编码器。它将原始波形转换为连续的音频表示向量序列。投影层：一个简单的线性投影层。它将音频编码器输出的向量映射到与大语言模型（LLM）词嵌入空间对齐的维度。这是连接音频与文本模态的关键桥梁。大语言模型骨干：采用Qwen2.5-7B作为核心推理引擎。它接收来自投影层的音频特征和文本提示的嵌入，进行自回归解码，生成文本响应。在训练的某些阶段，LLM也被扩展以处理离散音频令牌。语音解码器：基于流匹配（Flow Matching）架构，并配备HiFi-GAN声码器。当需要语音生成时，LLM输出的离散音频令牌（来自StableToken）被送入此解码器，先转换为梅尔频谱图，再合成最终波形。训练阶段与模块状态：阶段1：离散令牌对齐：仅训练LLM的嵌入层和输出头，通过ASR和TTS任务，让LLM学会处理离散音频代码，为语音生成做准备。阶段2：音频LLM适应：冻结LLM和音频编码器，仅训练投影层。使用UAS标注数据进行训练，使模型从一开始就建立对结构化声学信息的理解。阶段3：全指令调优：解冻除音频编码器外的所有参数。在混合数据（基础音频数据、UAS标注、UAS-QA）上进行多任务训练，综合提升感知、推理和生成能力。阶段4：GRPO：使用群体相对策略优化（GRPO）进行强化学习，进一步提升模型性能。架构选择理由：该设计复用了经过验证的成熟组件（如Qwen2.5、流匹配解码器），创新点不在于模块本身，而在于如何使用UAS数据来训练这些模块，特别是通过阶段2的针对性适应，避免了模型陷入传统的ASR中心表征。 ...

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分：8.8/10 | arxiv 👥 作者与机构第一作者：Meng Chen（浙江大学，ZJU-MUSLAB）通讯作者：Tianwei Zhang（新加坡国立大学，School of Computing）其他作者： Kun Wang（浙江大学，ZJU-MUSLAB） Li Lu（浙江大学，ZJU-MUSLAB） Jiaheng Zhang（香港中文大学，Department of Computer Science & Engineering） Kun Wang（阿里云，Alibaba Cloud）(注：论文PDF中作者列表有两位Kun Wang，根据机构推断一位来自ZJU-MUSLAB，另一位来自阿里云) 💡 毒舌点评亮点：论文首次系统性地研究了针对音频大语言模型（LALM）的“间接”音频提示注入攻击，问题定义精准（数据-only访问、用户在环），并提出了一个通用且有效的攻击框架AudioHijack。槽点：攻击框架严重依赖对目标模型的白盒访问（知道架构和参数），这在现实世界中可能是一个重大限制；此外，虽然提出了多种防御策略，但它们的有效性有限，论文在“如何有效防御”这一更关键的问题上着墨相对较少。 🔗 开源详情代码：论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建，但截至论文发布时可能尚未完全公开。模型权重：未提及发布攻击模型权重。攻击针对的是现有的开源LALM。数据集：论文中使用的音频数据来自公开基准（AirBench, VoiceBench）。用于训练攻击的辅助用户指令数据集可能随代码一起发布。音频样本：提供在线试听链接：https://audiohijack.github.io。在线Demo：未提及。依赖的开源项目：攻击实现依赖于PyTorch等框架，以及被攻击的各个开源LALM的官方代码库（如Qwen2-Audio, GLM-4-Voice等）。 📌 核心摘要这篇论文揭示了针对音频大语言模型（LALM）的一种新型安全威胁：上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据（如会议录音、音乐片段），即可在用户不知情的情况下，劫持模型行为，使其执行恶意指令（如发送邮件、下载文件、传播错误信息）。为实现这一目标，作者提出了AudioHijack框架，它通过基于采样的梯度估计解决了音频分词不可微的问题，实现了端到端的对抗音频优化；通过注意力引导的上下文泛化技术，使攻击能泛化到未知的用户指令上下文；并设计了卷积扰动混合方法，将对抗扰动模拟为自然的混响效果，极大提升了攻击的隐蔽性。实验表明，AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%，并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞，为LALM的安全设计提供了重要警示。 🏗️ 模型架构论文本身并未提出新的模型架构，而是针对现有的、架构各异的大型音频语言模型（LALM）进行攻击研究。因此，本节将详细描述被攻击的LALM的通用架构流程，以及AudioHijack攻击框架如何与之交互。 ...

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding

📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Jieyi Wang (上海AI实验室，北京大学) 通讯作者：Yazhe Niu (CUHK MMLab) 其他作者：Dexuan Xu (北京大学)，Zhongyu Wei (复旦大学) 💡 毒舌点评亮点：论文的“PAUSE” token设计很巧妙，它让模型在遇到听不清、分不清的“声音玄学”时，能先“闭嘴琢磨一下”再回答，模仿了人类“想一想再说”的认知过程，这是对现有音频大模型推理机制的一个有趣补充。槽点：整个框架的“仪式感”太强，从数据构建到两阶段训练再到复杂的奖励函数，工程复杂度拉满，但最终在部分指标上的提升幅度，相对于其付出的计算和开发成本，性价比有待商榷，且PAUSE机制带来的推理延迟是实打实的。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/JOY-SWang/HyPeR。模型权重：论文中未明确提及是否公开模型权重。数据集：PAQA数据集已开源，可通过上述GitHub地址获取。预训练权重：基于Qwen2-Audio-7B-Instruct进行微调。在线Demo：论文中未提及。引用的开源项目：依赖Qwen2-Audio、MUSAN数据集、FSD50K数据集、CLAP模型等。 📌 核心摘要本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发，作者提出了一个感知接地的混合推理框架。首先，他们构建了一个名为PAQA的新数据集，通过层次化解耦策略（区分语音与环境音、分离不同说话人）为模型提供显式的感知推理训练。在此基础上，提出了HyPeR框架，它包含两个阶段：第一阶段通过监督微调让模型学习结构化的显式感知与反思；第二阶段利用基于GRPO的强化学习，并引入特殊的<PAUSE> token来触发隐式潜在推理，以处理难以用语言描述的声学线索。实验表明，HyPeR在多个音频理解基准测试上显著降低了感知错误，性能可与更大规模的模型相媲美，验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟，且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架，整体架构如图1所示。完整输入输出流程：输入：原始音频信号 X_a 和文本问题 Q。第一阶段（显式感知 - SFT）：模型（基于Qwen2-Audio-7B-Instruct）被微调以生成结构化的推理链 T。这个过程是自回归的，每一步都依赖于前一步的输出：规划 (P)：基于音频和问题，规划解题逻辑。描述 (C)：提取多层声学特征，包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。推理 (R)：基于P和C进行逐步分析推理。总结 (S)：将推理合成为内部结论。反思 (R‘)：对背景音和说话人进行透明分析，并反思以改进答案。这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。过渡门控：在生成显式链后，模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE]，则触发“思考-再说话”步骤；若低于 τ_abort，则直接中止轨迹。第二阶段（隐式推理 - RL）：若触发<PAUSE>，模型生成一个<PAUSE>特殊标记，并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”，它们不输出到最终可见文本，也不参与后续自回归生成的梯度计算，仅用于迭代更新模型的内部隐藏状态 H_t，以进行更深入的音频特征处理。之后，模型恢复生成可见的最终答案。整个过程由GRPO强化学习优化，奖励函数综合考虑答案准确性、格式合规性、感知一致性（如背景音鲁棒性、说话人-ASR保真度）和长度控制。关键设计选择理由： ...

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #音频大模型 #大语言模型 #流式处理 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Chung-Ming Chien (Kyutai，推断) 通讯作者：论文未明确标注，根据机构和工作内容推断为 Alexandre Défossez 或 Chung-Ming Chien (Kyutai) 其他作者： Manu Orsini (Kyutai，推断) Eugene Kharitonov (Meta FAIR，推断) Neil Zeghidour (Google DeepMind，推断) Karen Livescu (纽约大学，推断) Alexandre Défossez (Kyutai，推断) 注：论文正文未直接列出作者机构，但根据作者邮箱后缀（@kyutai.org, @meta.com, @google.com, @nyu.edu）及致谢内容推断。 💡 毒舌点评亮点：巧妙地将RAG“塞进”了全双工语音对话的严格时间缝隙里，实现了“边说边查”的真人感，技术路线设计得很优雅。槽点：整个系统依赖大量合成数据训练和复杂的多模块协作（ASR+LLM检索+语音模型），像一台精密但脆弱的瑞士钟表，实际部署和维护成本恐怕不低。 🔗 开源详情代码：论文提到推理代码已在GitHub开源：https://github.com/kyutai-labs/moshi-rag。模型权重：论文未明确说明MoshiRAG的模型权重是否公开。原始Moshi模型权重是公开的。数据集：论文中描述的合成训练数据集未提及是否公开发布。在线Demo：论文提供了在线演示地址：https://moshi-rag.kyutai.org。依赖的开源项目：论文中明确引用的开源项目包括：Moshi（基础模型）、Gemma 3（用于数据生成和检索）、ARC-Encoder（参考编码）、Tavily（搜索API）、HaluEval、Natural Questions等数据集。 📌 核心摘要本文提出了MoshiRAG，这是首个集成检索增强生成功能的全双工语音语言模型。要解决的问题是全双工语音模型在保持实时交互性的同时，事实准确性不足的挑战。核心方法是基于Moshi模型，设计了一个异步检索框架：前端全双工模型在遇到知识密集型查询时预测一个特殊的检索触发词<ret>，随后在继续与用户对话的同时，后台异步调用基于文本的检索系统（如LLM或搜索引擎）获取参考资料；利用语音响应中“关键词延迟”的自然时间差（即从开始说话到说出关键信息的时间），在关键内容生成前将检索到的信息注入模型。主要发现显示，MoshiRAG在多项问答基准测试上显著提升了事实准确性（如在TriviaQA上从22.8%提升至73.7%），性能可媲美甚至超越多数非全双工语音模型，同时保持了全双工系统低延迟、高交互性的优势。此外，系统展现出良好的泛化能力，在未见过的数学推理任务上也取得不错效果。实际意义在于为构建更可靠、知识更丰富的实时语音AI助手提供了一条可行路径。局限性在于目前依赖合成数据进行训练，且系统复杂度较高。 ...

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Luoyi Sun（浙江大学，上海人工智能实验室）通讯作者：Weidi Xie（上海交通大学，上海人工智能实验室）其他作者： Xiao Zhou（上海人工智能实验室，上海交通大学） Zeqian Li（上海人工智能实验室，上海交通大学） Ya Zhang（上海人工智能实验室，上海交通大学） Yanfeng Wang（上海人工智能实验室，上海交通大学） 💡 毒舌点评亮点：这篇论文的“时间戳交错序列”设计堪称“暴力美学”，直接把时间戳文本硬塞进音频Token序列里，让大语言模型像读句子一样“读”出时间，思路简单粗暴但异常有效。槽点：合成数据管道虽然巧妙，但用VGGSound配“Walking Tours”背景音，总感觉像是在录音棚里模拟“菜市场”，离真正的复杂声学场景还有点距离；另外，模型对“狗叫”这种瞬态声音的定位精度（见失败案例），似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 🔗 开源详情代码：已开源。GitHub地址：https://loiesun.github.io/spotsound/ (指向项目主页，代码应托管于此)。模型权重：已公开。在HuggingFace上发布，包括基于Qwen2-Audio和Audio Flamingo 3的两个变体（SpotSound-Q和SpotSound-A）。数据集： SpotSound-Bench：已公开，包含300个音频-query-timestamp三元组，可通过项目主页获取。训练数据：论文中提到的合成数据管道和混合数据集的具体发布情况未明确说明，但强调“Code, models and benchmark are released”。在线Demo：论文中未提及在线Demo地址。引用的开源项目：依赖于Qwen2-Audio、Audio Flamingo 3、Whisper、DeepSeek-v3、Qwen2等开源模型。 📌 核心摘要本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单，导致在长音频中定位短暂事件（“大海捞针”）时表现不可靠。为此，作者提出了SpotSound框架，其核心创新在于：1）设计了时间戳交错序列，将绝对时间戳文本与音频特征交错输入LLM，提供显式的时间对齐信号；2）引入了抗幻觉训练目标，通过构建包含正负样本的判别式四元组，强制模型先判断事件是否存在，再进行定位，有效抑制了对不存在事件的幻觉定位。同时，论文构建了SpotSound-Bench基准，其中目标事件仅占音频总长的8.4%，模拟了真实的“稀疏事件定位”挑战。实验表明，SpotSound在多个时间定位基准上达到了最先进水平，并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型，其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取：原始输入：一段音频 𝒜 和一个自然语言查询 ℚ。音频编码：音频被重采样至16kHz，转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器（如Whisper-large-v3），该编码器包含一个步长为2的池化层，将时间分辨率压缩，每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新：时间戳交错序列构建 (Timestamp-Interleaved Sequence) ...