Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models

📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频大模型 #多模态模型 #自监督学习 #知识蒸馏 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Longhao Li (西北工业大学,计算机科学学院,音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie (西北工业大学,计算机科学学院,ASLP@NPU),Yongxiang Li (西北工业大学,计算机科学学院,ASLP@NPU) (根据论文中提供的联系邮箱推断) 其他作者: Hongjie Chen (中国电信人工智能研究院 (TeleAI)) Zehan Li (西北工业大学,计算机科学学院,ASLP@NPU) Qihan Hu (西北工业大学,计算机科学学院,ASLP@NPU) Jian Kang (西北工业大学,计算机科学学院,ASLP@NPU) Jie Li (中国电信人工智能研究院 (TeleAI)) 💡 毒舌点评 亮点:这篇论文最亮眼的是其“全开源”的承诺和“自蒸馏”策略,构建了一个从数据到模型的完整音频推理解决方案,直接挑战了依赖闭源API(如Gemini)的“捷径”做法,为社区提供了宝贵的可复现基准。槽点:然而,讽刺的是,其评估体系的核心——MMAR基准测试的“评分细则(rubric)”——仍然依赖闭源的Gemini 2.5 Pro生成,这使得其“超越闭源模型”的结论在评估公正性上存在一丝“用对手的尺子量自己”的微妙尴尬。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)在复杂音频推理任务上能力不足且依赖昂贵闭源数据的问题。作者提出了一个名为Audio-Cogito的全开源解决方案,其核心是Cogito-Pipe——一个四阶段自动化数据构建流水线,用于生成高质量、多样化的音频推理链(CoT)数据。该流水线通过整合多源音频元数据、利用模型自身进行自蒸馏生成推理轨迹,并辅以质量验证,最终构建了一个包含54.5万个样本的大规模开源数据集。基于此数据集,作者采用自蒸馏策略对基座模型(Qwen3-Omni-Thinking)进行微调。实验表明,Audio-Cogito在专门评估推理过程的MMAR基准测试上,取得了开源模型中的最佳性能,平均准确率达71.70%,甚至在部分指标上超越了Gemini 2.0 Flash等闭源系统,同时其推理链的质量(Rubrics Score 62.22%, CRS 0.87)也得到显著提升。该工作为推动音频模态的深度、可解释推理提供了重要的开源资源和方法论参考。 🏗️ 模型架构 Audio-Cogito的模型架构并非全新设计,而是基于现有的强大基座模型Qwen3-Omni-Thinking(一个30B参数、支持音频-文本多模态输入与思考链输出的模型)进行微调而来。其核心创新在于训练数据和训练策略,而非模型结构本身。 完整输入输出流程: 输入:模型接收一个**音频信号(A)和一个文本查询(Q)**作为联合输入。 内部表示:模型内部的多模态编码器(具体结构未在本文详述,继承自Qwen3-Omni-Thinking)将音频和文本转换为统一的特征表示。 生成过程:模型被显式地训练为生成一个两部分的序列: 第一部分:思维链(C):这是一个结构化的、逐步推理的文本轨迹,记录了模型如何分析音频线索、进行逻辑推导以得出结论的过程。 第二部分:最终回答(R):基于前面的推理,给出的简洁、明确的答案。 输出:最终输出是思维链(C)和最终回答(R)的拼接序列 (C, R)。 关键设计选择的理由: ...

2026-04-19

On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation

📄 On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation #知识蒸馏 #自监督学习 #统一音频模型 #音频理解 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Changhao Cheng (上海交通大学,人工智能学院) 通讯作者:Yanmin Qian (上海交通大学,人工智能学院;听觉认知与计算声学实验室,教育部人工智能重点实验室) (推断,基于其资深作者身份及实验室负责人角色) 其他作者: Wei Wang (上海交通大学,人工智能学院) Wangyou Zhang (上海交通大学,计算机科学学院,听觉认知与计算声学实验室,教育部人工智能重点实验室) Dongya Jia (上海交通大学,人工智能学院) Jian Wu (字节跳动 Seed) Zhuo Chen (上海交通大学,人工智能学院) 💡 毒舌点评 亮点在于它像一个严谨的“调音师”,系统性地探索了语音VAE蒸馏损失的“调音旋钮”(时间轴、维度轴、联合边际),并找到了让重建、理解、生成这三个“声部”和谐共奏的新配方(JMAS-VAE)。槽点则是这“新配方”的调制过程有点复杂,引入的自适应权重和边际参数增加了训���和调参的“玄学”成分,且实验结论高度依赖于所选的教师模型(WavLM),换一个“老师”可能结论又得重写。 📌 核心摘要 本文针对现有语音变分自编码器(VAE)在统一语音重建、理解和生成任务上表现不平衡的问题(尤其是理解能力差),系统性地研究了蒸馏损失函数的设计空间。作者探索了三种将自监督学习(SSL)模型知识蒸馏到VAE潜在空间的方式:时间轴对齐(TAS)、维度轴对齐(DAS)和联合边际对齐(JMAS)。关键创新在于提出了JMAS损失,它不仅进行逐帧对齐,还通过边际余弦相似度和边际距离序列相似度损失来约束特征分布的结构一致性。此外,论文引入了基于梯度范数的自适应加权策略来动态平衡各项损失。大量实验表明,采用自适应加权的JMAS-VAE在重建、理解和生成三项任务的综合得分上取得了最优平衡,显著优于传统VAE和仅进行时间轴对齐的语义VAE。研究揭示了不同对齐方式对语义和声学信息保留的偏向性,为设计统一的语音表示提供了重要见解。 🏗️ 模型架构 该论文的核心是训练一个语音VAE模型,其架构基于 stable-audio-tools 框架。 整体流程:输入为原始语音波形,经过编码器下采样和潜在空间表示,再通过解码器重建语音波形。核心创新在于训练过程中,VAE的潜在表示会通过一个额外的投影层与一个预训练的语音SSL模型(WavLM Large)的中间特征进行对齐(蒸馏)。 主要组件: 编码器:采用DAC(Descript Audio Codec)编码器架构。输入语音信号经过一系列下采样操作(因子为{4,4,5,5}),最终得到一个64维、帧率为40Hz的连续潜在表示 z。 MLP投影层:一个线性层,将64维的潜在表示 z 投影到1024维,得到 z'。这个 z' 将用于与SSL特征进行对齐。 教师模型:使用预训练的 WavLM Large 模型。提取其第23层的特征作为蒸馏目标 f。该特征维度也为1024维,与 z' 对齐。 解码器:采用BigVGAN解码器,将潜在表示 z 上采样并重建为原始波形。 数据流:原始波形 → DAC编码器 → 潜在表示 z (64维) → MLP投影 → z' (1024维)。训练时,z' 与WavLM特征 f 计算蒸馏损失;同时,z 送入BigVGAN解码器进行重建。推理时,只需编码器和解码器。 设计理由:使用DAC和BigVGAN是因其在音频生成领域的有效性。将潜在空间与强大的SSL模型(WavLM)对齐,旨在注入丰富的语义和声学结构信息,弥补VAE自身在理解任务上的不足。 💡 核心创新点 联合边际对齐蒸馏损失(JMAS Loss): ...

2026-04-19

Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization

📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Xiangyu Zhang(新南威尔士大学电气工程与电信学院;杜比实验室,悉尼) 通讯作者:Julien Epps(新南威尔士大学电气工程与电信学院)(推断,作为最后作者及机构负责人) 其他作者: Benjamin John Southwell(杜比实验室,悉尼) Siqi Pan(杜比实验室,悉尼) Xinlei Niu(杜比实验室,悉尼) Beena Ahmed(新南威尔士大学电气工程与电信学院) 💡 毒舌点评 亮点:论文像一位严谨的侦探,系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突,并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点:实验部分虽然扎实,但读起来像在啃一本厚重的实验手册,部分描述(如梯度分析)略显冗长,且主要聚焦于视频-音频融合,对其他模态组合的泛化性探讨不足,有点“偏科”。 📌 核心摘要 这篇论文深入探讨了在端到端音频语言模型中,将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验,揭示了三个关键发现:融合位置(在量化前还是量化后)至关重要;在离散分词器中,知识蒸馏比对比学习更有效;基于时间轴的动态融合优于静态特征融合。基于此,论文提出了时间感知预量化融合(TAPF) 方法,这是首个能在集成视觉信息的同时,保持高保真音频重建质量的方案。实验表明,TAPF不仅维持了重建保真度,还在下游音频理解任务(如AVQA)上显著优于单模态音频分词器和现有多种多模态融合基线,特别是在低比特率(高压缩)场景下,展现了8倍的token效率提升。 🏗️ 模型架构 论文提出了一个用于视频增强音频分词的统一框架,其核心是预量化融合策略。整体流程如下: 输入:原始音频波形 x ∈ ℝ^T 和对应的视频帧序列。 音频编码:音频通过 SEANet编码器 (E_audio) 映射为连续表示 z_e ∈ ℝ^(d×T')。 视觉编码:视频帧通过预训练的 Perception Encoder 提取视觉特征 f_vision ∈ ℝ^(d_v×T_v)。 关键融合阶段(预量化):在量化之前,将视觉信息融合到音频的连续表示 z_e 中。论文比较了两种融合方法: 知识蒸馏融合:通过一个变换器将 z_e 投影到语义空间得到 f_audio,然后使用蒸馏损失 L_distill(基于余弦相似度)拉近 f_audio 与 f_vision 的距离。 对比学习融合:对 f_audio 和 f_vision 进行时序平均池化后,使用CLIP风格的对比损失 L_contrastive 进行对齐。 量化:融合后的连续特征送入 残差矢量量化器 (RVQ) 或 有限标量量化器 (FSQ),生成离散token序列 ẑ。RVQ包含8层,每层1024个码本。 音频解码:离散token ẑ 通过 SEANet解码器 (D_audio) 重构为音频波形。 训练目标:总损失 L_total 是重建损失(L1 + 多尺度梅尔频谱损失)、承诺损失和融合损失(蒸馏或对比损失)的加权和。 下游评估:为了评估分词器的理解能力,论文设计了一个音频token投影框架。离散token通过一个可训练的 AudioProjector(为每个量化层设置独立的嵌入层,拼接后通过多层Transformer映射网络)转换为语言模型兼容的表示,然后与文本问题一起输入冻结的 Llama 3.1 8B 模型,通过一个可训练的分类头完成音频视觉问答(AVQA) 任务。 关键设计选择理由: ...

2026-04-19