Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者: Xiang He (腾讯AI Lab, 北京) 通讯作者: Li Liu (香港科技大学(广州)), Dong Yu (腾讯AI Lab, 北京) 其他作者: Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评 亮点: 这篇论文最“性感”的地方在于它证明了在音频领域,像教婴儿学走路一样,不需要手把手教(监督微调),只需要给对“奖励信号”(混合相似度奖励),模型自己就能在探索中“悟”出如何推理,而且悟性还特别好(SOTA)。槽点: 依赖一个巨大的外部LLM(Qwen3-235B)作为奖励评估器,训练成本恐怕不菲,有点像请米其林三星大厨来给家常菜打分,效果虽好但难以普及。另外,参考推理链本身也依赖其他大模型生成,属于“站在巨人的肩膀上再创造”,原创性在数据层面稍打折扣。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量,要么使用粗糙的奖励,导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架,其核心贡献有三:1)设计了一种混合推理相似度奖励,结合LLM评估(逻辑、深度)和嵌入相似度(语义对齐),直接对推理链内容进行细粒度监督;2)提出了一个渐进式两阶段RL课程,首先在基础音频QA数据上通过纯RL探索激发基本推理模式,然后在声学边界案例上使用更灵活的奖励进行增强,全程无需监督推理微调;3)进行了深入的机理分析,揭示RL训练主要重塑上层MoE门控机制,且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能,证明了通过精心设计的奖励和课程,高质量的音频推理能力可以从RL探索中涌现。 ...

2026-04-21

A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven's Piano and Cello Sonatas

📄 A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven’s Piano and Cello Sonatas #音乐信息检索 #音频理解 #信号处理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者(推断):Ignasi Sole (ignasiphd@gmail.com) (推断为独立研究者或博士生,论文未明确标注所属机构) 通讯作者(推断):Ignasi Sole (ignasiphd@gmail.com) 其他作者:Jordi Altayó(KTH皇家理工学院,VLSI设计博士研究员,协议合作开发者) 💡 毒舌点评 这篇论文的亮点在于,当高大上的AI算法在“老破小”的历史录音面前集体翻车时,作者没有硬着头皮调参,而是非常务实地回归了“人肉计算”,并且把这个手动过程包装得极其严谨、透明,甚至比很多黑箱算法还让人信服。槽点则是,在2026年还在主推一个耗时数百小时的手动计时协议,这方法论“复古”得让人梦回上世纪,可扩展性基本为零,堪称音乐分析领域的“手工匠人精神”展演。 📌 核心摘要 本文旨在解决现有自动化节拍提取工具在分析历史复调室内乐录音(特别是贝多芬钢琴与大提琴奏鸣曲)时出现的系统性失败问题。作者与一名VLSI工程师合作,设计并验证了一套形式化的手动逐小节速度测量协议。该协议采用累积时间戳架构,使用数字秒表的圈速功能记录每个小节结束的累积时间,从而计算小节时长与瞬时BPM。其核心优势在于防止误差累积、允许内部自验证(所有小节时长之和必须等于总时长),并能精确捕捉自由速度、延长记号等表情性节奏变化。作者将该协议应用于1930年至2012年间超过100份录音,生成了公开的BPM数据集,并开发了包含tempograph、直方图、山脊图等多类型可视化工具套件。研究表明,在特定条件下,经过严谨设计和误差量化的人工标注方法,其可靠性和对音乐表现力的捕捉能力优于失效的自动化工具。该论文的主要贡献是方法论上的,为处理类似“困难”录音语料提供了可复现的解决方案。 🏗️ 模型架构 本文的核心并非一个计算模型,而是一套手动数据收集与处理协议。其整体架构(流程)如下: 输入:历史复调室内乐录音(音频文件)及对应乐谱。 核心测量流程: 工具:具备CSV导出功能的数字秒表应用(圈速计时器)。 操作:注释者跟随录音,在乐谱上标记的每个小节线处按下“圈速”按钮。 数据记录:秒表记录下从乐章开始到每个小节结束的累积时间戳(T_i),而非独立的小节时长。 数据处理与计算: 将累积时间戳导入电子表格(如Google Sheets)。 核心计算: 小节时长:Δt_i = T_i - T_{i-1} (其中 T_0 = 0)。 小节BPM:BPM_i = (n_i * 60) / Δt_i,其中 n_i 是该小节的拍数(来自节拍号)。 内部自验证:检查所有 Δt_i 的总和是否等于最终的累积时间 T_M(即乐章总时长),以此发现漏按或错按。 误差建模:分析人类反应时间(约±0.1秒)对单个BPM值的影响,并通过数学推导证明该误差是随机的、非累积的,且在段落平均中会相互抵消。 输出:每个乐章、每个录音的逐小节BPM数据集,以及基于此的多种可视化图表(tempograph, 直方图, 山脊图等)。 关键设计选择理由: ...

2026-04-19

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

📄 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs #音频理解 #统一音频模型 #强化学习 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Linhao Zhang(腾讯微信AI,基础模型技术中心) 通讯作者:推断为 Houfeng Wang(北京大学计算机科学学院,多媒体信息处理国家重点实验室)和 Xiao Zhou(腾讯微信AI,基础模型技术中心),基于资深作者位置及实验室负责人身份。 其他作者: Yuhan Song(北京大学计算机科学学院,多媒体信息处理国家重点实验室) Aiwei Liu(腾讯微信AI,基础模型技术中心) Chuhan Wu(腾讯微信AI,基础模型技术中心) Sijun Zhang(腾讯微信AI,基础模型技术中心) Wei Jia(腾讯微信AI,基础模型技术中心) Yuan Liu(腾讯微信AI,基础模型技术中心) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点,并一针见血地指出病根在于ASR(语音识别)的“填鸭式”教学——只教认字,不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”,强制它去听语气、听环境,效果立竿见影。 槽点:方法虽好,但“药方”(训练数据)全靠其他模型“合成”,虽然做了人工验证,但终究是“二手信息”,长期来看可能限制模型感知能力的上限。另外,论文主要在高资源语言(中英文)上验证,对于方言或低资源语言的效果还是个问号。 📌 核心摘要 这篇论文旨在解决当前音频大语言模型(AudioLLMs)在细粒度声学感知任务上表现不佳的核心问题。作者指出,主流的以自动语音识别(ASR)为中心的训练范式,通过将音频映射到纯文本转录,系统性地丢弃了副语言学(如情感、语调)和非语言声学事件信息,导致模型成为“语言巨人,听觉矮子”。为此,他们提出了一种统一音频模式(UAS),这是一种结构化的JSON表示,将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分,从而在训练中保留完整的声学线索。基于UAS,作者构建了可扩展的自动数据生成流水线,并训练了UAS-Audio模型。实验表明,UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升,同时保持了强大的推理能力,并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号,是提升AudioLLMs综合能力的有效途径。 🏗️ 模型架构 UAS-Audio的整体架构遵循当前主流的连续表示AudioLLM范式,包含四个核心组件,其输入输出流程如下: 输入:原始音频波形。 输出:文本(如转录、问答、结构化UAS)或生成的语音波形。 核心组件与数据流: 音频编码器:使用AuT (Audio Transformer) 作为连续音频编码器。它将原始波形转换为连续的音频表示向量序列。 投影层:一个简单的线性投影层。它将音频编码器输出的向量映射到与大语言模型(LLM)词嵌入空间对齐的维度。这是连接音频与文本模态的关键桥梁。 大语言模型骨干:采用Qwen2.5-7B作为核心推理引擎。它接收来自投影层的音频特征和文本提示的嵌入,进行自回归解码,生成文本响应。在训练的某些阶段,LLM也被扩展以处理离散音频令牌。 语音解码器:基于流匹配(Flow Matching)架构,并配备HiFi-GAN声码器。当需要语音生成时,LLM输出的离散音频令牌(来自StableToken)被送入此解码器,先转换为梅尔频谱图,再合成最终波形。 训练阶段与模块状态: 阶段1:离散令牌对齐:仅训练LLM的嵌入层和输出头,通过ASR和TTS任务,让LLM学会处理离散音频代码,为语音生成做准备。 阶段2:音频LLM适应:冻结LLM和音频编码器,仅训练投影层。使用UAS标注数据进行训练,使模型从一开始就建立对结构化声学信息的理解。 阶段3:全指令调优:解冻除音频编码器外的所有参数。在混合数据(基础音频数据、UAS标注、UAS-QA)上进行多任务训练,综合提升感知、推理和生成能力。 阶段4:GRPO:使用群体相对策略优化(GRPO) 进行强化学习,进一步提升模型性能。 架构选择理由:该设计复用了经过验证的成熟组件(如Qwen2.5、流匹配解码器),创新点不在于模块本身,而在于如何使用UAS数据来训练这些模块,特别是通过阶段2的针对性适应,避免了模型陷入传统的ASR中心表征。 💡 核心创新点 问题归因创新:明确指出AudioLLMs感知能力薄弱的系统性根源是ASR中心训练范式。该范式在优化语义对齐的同时,隐式地将副语言学和环境声学信息视为“噪声”进行抑制,造成了感知盲区。 监督框架创新:提出统一音频模式(UAS) 作为一个结构化的、全面的监督框架。它将音频信息显式分解为“转录”、“副语言学”(年龄、性别、情感等6个子字段)和“非语言事件”(描述、离散事件、连续事件),迫使模型学习并保留这些通常被忽略的声学维度。 数据工程创新:设计了一个可扩展的、自动化的UAS数据生成流水线。该流水线分三阶段:1)用现成的音频描述模型生成丰富字幕;2)用LLM将字幕与真实转录结合,合成为结构化UAS;3)通过本体约束、转录完整性校验等多级自动化验证确保数据质量。这使得利用现有海量ASR数据集构建感知丰富的训练数据成为可能。 训练策略创新:在训练流程中,专门设计了阶段2(音频LLM适应),在冻结主干的情况下仅用UAS数据训练投影层。这确保了模型在接触复杂任务前,其跨模态对齐的“接口”就已建立在感知丰富的表征之上,而非需要后续“纠偏”的ASR表征。 🔬 细节详述 训练数据: 规模:总计使用了数十万小时的音频数据,约90%为开源数据,10%为内部数据。 主要开源数据集:包括LibriSpeech (960h)、多语言LibriSpeech (27,322h)、GigaSpeech (10,000h)、Yodas (29,155h)、Emilia (96,750h)、AudioSet (4,922h)等,覆盖语音、音乐、环境声。 UAS数据生成:使用Qwen3-30B-A3B-Instruct模型进行字幕到UAS格式的转换,使用Qwen3-235B-A22B-Instruct模型生成UAS-QA对。 损失函数:论文未明确提及特殊的损失函数,主要阶段(1-3)采用标准的自回归交叉熵损失进行序列预测。阶段4的GRPO是一种强化学习策略优化方法。 训练策略与超参数: 优化器:AdamW (β₁=0.9, β₂=0.95),权重衰减为0.1。 学习率调度:采用余弦衰减并带线性预热。 各阶段学习率:阶段1峰值5e-4,阶段2峰值2e-4,阶段3峰值1e-4,阶段4峰值5e-6。 预热步数:阶段1为500步,阶段2和3为1000步,阶段4为200步。 梯度裁剪:1.0。 可训练参数:阶段1和2仅训练投影层;阶段3训练除音频编码器外的所有参数;阶段4同阶段3。 推理细节: 灵活生成:推理时不强制生成完整UAS JSON。支持目标模式(如直接问答)和整体模式(生成完整UAS),用户可通过提示词控制。 语音生成:使用训练好的离散音频令牌和流匹配解码器进行自回归语音合成。 数据增强/正则化:未特别提及,主要依赖大规模数据混合和多任务学习作为隐式正则化。 📊 实验结果 主要指标对比(MMSU, MMAR, MMAU基准): 模型 MMSU MMAR MMAU 平均 感知 推理 总体 语音 离散架构 GLM-4-Voice 11.04 16.16 13.30 34.35 UAS-Audio-D 31.32 48.55 39.66 44.56 连续架构 Kimi-Audio 44.8 75.7 59.8 58.5 Qwen2.5-Omni 42.7 77.6 58.1 59.9 Step-Audio2 42.9 73.2 57.6 61.2 UAS-Audio 55.7 77.4 66.2 66.0 关键发现: ...

2026-04-19

Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning

📄 Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning #音频分类 #时频分析 #信号处理 #音频理解 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:Mahmoud Fakhry(西班牙卡洛斯三世大学,信号理论与通信系;埃及阿斯旺大学,电气工程系) 通讯作者:Ascensión Gallardo-Antolín(西班牙卡洛斯三世大学,信号理论与通信系) 其他作者:无 💡 毒舌点评 亮点:这篇论文的“混搭”思路很有意思,把经典的信号处理工具(Gabor字典、弹性网络)和现代深度学习(CNN-LSTM)结合,像用老式显微镜(稀疏建模)观察细胞(心音),再用最新的AI修图软件(CNN)进行分类,最终效果拔群。槽点:论文的排版和表格格式堪称“灾难”,多个表格数据错位、符号乱码(如98.95 % 98.95\%),严重影响阅读体验;此外,虽然声称“深度学习”,但核心网络结构相对简单,更像是对特征工程工作的验证。 📌 核心摘要 本文旨在解决心音信号(PCG)的多分类问题,以辅助心血管疾病的自动诊断。核心贡献在于提出了一套结合优化Gabor字典和弹性网络正则化的特征提取框架,并与CNN-LSTM深度学习网络相结合。具体而言,作者首先通过系统性地调整Gabor原子的时频分辨率(尺度参数β)和弹性网络的正则化参数(α),为心音信号寻找最优的稀疏表示模型(系数向量a)。然后,将这些系数向量重塑为具有物理意义的2D时间-频率特征矩阵,作为分类网络的输入。实验在包含五种心脏瓣膜疾病的1000条记录数据集上进行,最终提出的“1D+2D CNN-LSTM”网络在ADAM优化器和最优特征(β=2¹,α=0.1)下,取得了**98.95%**的最高分类准确率,显著优于使用原始信号或传统VMD特征的基线方法。该方法的局限性在于数据集规模相对较小,且网络架构的复杂性并未达到当前最深模型的水平。 🏗️ 模型架构 本文提出的系统分为两个主要阶段:特征计算与分类。 整体流程:原始PCG信号 → 预处理(截断/补零、降采样、标准化) → 通过优化后的Gabor字典和弹性网络正则化计算系数向量a → 对a应用加权对数函数得到特征向量b → 将b重塑为2D时间-频率特征矩阵B → 输入到CNN-LSTM分类网络中 → 输出五类心脏疾病的分类概率。 特征计算阶段: 输入:长度为L=2^11的标准化PCG信号向量x。 核心模型:通过求解弹性网络正则化问题 min_a (1/(2N))||x - D_j a||₂² + λ((1-α)/2 ||a||₂² + α ||a||₁) 来估计系数向量a。其中D_j是第j个Gabor字典,其原子的尺度参数β=2^j,α控制稀疏性(α=0为岭回归,α=1为LASSO)。 特征变换与重塑:对系数向量a进行标准化和归一化后,应用加权对数函数 b_m = -|a_m| log|a_m| 得到特征向量b。然后,根据字典D_j的结构(行数=2^(j+1),列数=2^(N-j+1)),将长度为2^(N+2)的向量b重塑为2D矩阵B。矩阵的每一行对应一个频率点,每一列对应一个时间平移位置。 分类网络阶段: 论文提出了两种架构: ...

2026-04-19

Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram

📄 Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram #信号处理 #时频分析 #音频生成 #音频理解 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:David Valdivia(法国图卢兹大学 IRIT 实验室) 通讯作者:Cédric Févotte(法国图卢兹大学 IRIT 实验室) 其他作者:Elsa Cazelles(法国图卢兹大学 IRIT 实验室) 💡 毒舌点评 亮点:这篇论文巧妙地将最优传输(OT)理论“嫁接”到经典的时频分析难题上,为解决Gabor-Heisenberg不确定性原理带来的分辨率权衡问题提供了新颖且数学严谨的视角。其设计的结构化代价矩阵和对应的无熵正则化UOT算法是两大技术亮点,显著提升了融合质量和计算效率。 槽点:方法虽然精巧,但更像一个“后期处理工具”,而非端到端的解决方案。它严重依赖于输入谱图的质量,且目前主要聚焦于提升分辨率这一单一目标,对于更复杂的音频任务(如去噪、分离)的集成路径尚不明确。此外,算法虽比传统OT快,但面对超长音频或实时处理场景,其迭代优化的本质可能仍是瓶颈。 📌 核心摘要 核心问题:短时傅里叶变换(STFT)生成的谱图受制于不确定性原理,无法同时获得优异的时间和频率分辨率。传统融合方法(如几何平均)要求输入谱图网格对齐,且性能有限。 核心方法:本文提出一种基于最优传输(OT)的谱图融合方法。将不同分辨率的谱图视为时频平面上的非负能量分布,通过计算它们的非平衡最优传输(UOT)重心来生成一个“超分辨率”谱图。关键创新包括:1) 设计了结构化代价矩阵,将能量传输约束在时间或频率轴的相邻点,符合时频物理意义;2) 提出了一个块状Majorization-Minimization(MM)算法,可直接求解无熵正则化的UOT重心问题,避免了传统方法因熵正则化导致的谱图模糊。 主要发现:在合成信号和真实语音上的实验表明,该方法能有效结合输入谱图的最佳特性:既保留了长窗口谱图的高频率分辨率,又继承了短窗口谱图的高时间分辨率。在频率定位、时间定位和谐波浓度等多项指标上,均优于输入谱图及几何平均基线方法,且“不同网格”设置在保持性能的同时大幅降低了计算成本。 实际意义:为音频和信号处理领域提供了一种强大的后处理工具,可用于生成更清晰、信息更丰富的时频表示,对语音分析、音乐信息检索、声学事件检测等依赖高质量谱图的任务具有直接应用价值。 🏗️ 模型架构 该论文提出的是一个基于优化的信号处理框架,而非传统的神经网络模型。其整体流程如下: 输入:同一信号的两个(或多个)谱图 X1 和 X2,使用不同长度的分析窗口计算得到。X1 使用长窗口,具有高频率分辨率但时间模糊;X2 使用短窗口,具有高时间分辨率但频率模糊。它们的时频网格(S1, S2)可以不同。 分布化:将每个谱图 X 向量化为 x,并将其视为定义在时频网格点集合 S 上的非负离散分布(测度) χ。对于OT计算,需要将 x 归一化为概率向量(和为1);对于UOT,则无需归一化。 定义目标网格:用户指定一个目标超分辨率谱图的时频网格 S。一个典型选择是 S = F1 × T2,即采用高频率分辨率谱图 X1 的频率采样 F1 和高时间分辨率谱图 X2 的时间采样 T2。 构建代价矩阵:这是核心设计。对于从输入分布 α (对应 X1) 到目标分布 γ (对应输出 X) 的运输,定义代价矩阵 C̃1。其条目 C̃1_{i1,i} 仅在满足以下条件时为有限值(否则为+∞):a) 频率索引相同 (m1 = m);b) 时间索引 n 属于与 n1 重叠的帧集合 O1(n1)。类似地,定义从 β (对应 X2) 到 γ 的代价矩阵 C̃2,其约束为时间索引相同 (n2 = n) 且频率索引 m 属于与 m2 重叠的频率集合 O2(m2)。这些约束强制能量只能在相邻的、有物理意义的时频点间移动。 计算UOT重心:求解优化问题,找到目标分布 γ(权重向量 g),使其最小化加权UOT代价之和:(1-λ)UOT_{C̃1}(x1, g) + λUOT_{C̃2}(x2, g)。其中UOT代价包含运输成本以及衡量边际分布不匹配程度的KL散度惩罚项。 算法求解:使用提出的块状MM算法(算法1)迭代求解上述问题。算法交替更新运输计划 Tα, Tβ 和重心权重 g。更新规则利用了KL散度的共轭性质,具有闭合形式。 输出:将求解得到的权重向量 g 反向映射回矩阵形式,得到超分辨率谱图 X。该谱图在目标网格 S 上定义,兼具高时间和高频率分辨率。 💡 核心创新点 基于最优传输的谱图融合框架: ...

2026-04-19

Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models

📄 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models #音频理解 #大语言模型 #少样本 #低资源 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Ryandhimas E. Zezario(推断为台湾中央研究院资讯科学研究所,根据论文[23]引用及常见合作模式) 通讯作者:Hsin-Min Wang(台湾中央研究院资讯科学研究所),Yu Tsao(台湾中央研究院资讯科学研究所) 其他作者:Dyah A. M. G. Wisnu(印度尼西亚玛琅国立大学电气工程系),Szu-Wei Fu(台湾中央研究院资讯科学研究所),Sabato Marco Siniscalchi(意大利卡塔尼亚大学电子工程系) (注:论文HTML全文未明确列出所有作者的具体机构,以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。) 💡 毒舌点评 亮点在于巧妙地将大语言模型(LLM)定位为“元评估器”,通过整合轻量级声学特征和现有模型的伪标签(DNSMOS, VQScore),而非直接处理原始音频,规避了LLM在音频理解上的短板,思路颇具巧思。槽点则是实验数据集过于单一(仅VoiceBank-DEMAND),且在“全样本评估”中少样本版本性能反而下降,暴露出其方法对示例选择的高度敏感性,结论的普适性有待商榷,有“为了用LLM而用LLM”之嫌。 📌 核心摘要 本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架,其核心是将大语言模型(如GPT-5)作为一个元评估器,通过精心设计的文本提示,融合多类异构信号:包括手工声学描述符(如RMS、ZCR、MFCC统计量)和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明,在VoiceBank-DEMAND数据集上,零样本GatherMOS已优于基线方法,而精心匹配的少样本引导能带来显著提升(在子集上SRCC达0.8473)。然而,当少样本示例与测试集分布不匹配时,性能会下降,揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性,为低资源场景下的语音质量评估提供了新思路。 🏗️ 模型架构 GatherMOS并非一个从头训练的模型,而是一个推理框架,其核心是利用预训练LLM的上下文学习能力。整体架构和流程如下: 输入:一段原始语音波形 x。 特征与伪标签提取(并行进行): 手工声学描述符提取器:从 x 中提取一系列低级特征,包括: 时域能量:RMS(均方根)。 频域/噪声相关:ZCR(过零率)。 信号完整性:是否削波(Clipping)、时长(Duration)。 频谱包络:13维MFCC的帧平均值。 频谱分布:梅尔频谱图的每-bin均值和方差、全局最大/最小值。 伪标签生成器(冻结): DNSMOS:输入语音,输出一个1到5之间的连续分数 s_DNS,代表感知质量。 VQScore:输入语音,输出一个0到1之间的分数 s_VQ,代表语音质量。 输入序列化与提示构建:将所有提取的描述符 {d_i}、伪标签 s_DNS 和 s_VQ,以及针对LLM的指令(例如:“您是语音质量评估专家…请估计分数…”),共同组织成一个结构化的文本提示(Prompt)。对于少样本版本,还会在提示中加入K个“支持样本”(few-shot examples),每个样本包含其特征、伪标签和对应的真实MOS分数。 LLM推理:将构建好的文本提示输入给大型语言模型(论文中为GPT-5)。LLM根据其内置的推理能力,对提示中的所有信息进行综合分析、权衡和“推理”。 输出:LLM生成两部分文本输出: 主输出:预测的连续MOS分数 ŝ。 辅助输出:解释性属性 a,如噪声水平、是否削波、混响程度以及一段解释性文字,说明其预测依据。 关键设计选择理由: ...

2026-04-19

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding

📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jieyi Wang (上海AI实验室,北京大学) 通讯作者:Yazhe Niu (CUHK MMLab) 其他作者:Dexuan Xu (北京大学),Zhongyu Wei (复旦大学) 💡 毒舌点评 亮点:论文的“PAUSE” token设计很巧妙,它让模型在遇到听不清、分不清的“声音玄学”时,能先“闭嘴琢磨一下”再回答,模仿了人类“想一想再说”的认知过程,这是对现有音频大模型推理机制的一个有趣补充。槽点:整个框架的“仪式感”太强,从数据构建到两阶段训练再到复杂的奖励函数,工程复杂度拉满,但最终在部分指标上的提升幅度,相对于其付出的计算和开发成本,性价比有待商榷,且PAUSE机制带来的推理延迟是实打实的。 📌 核心摘要 本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发,作者提出了一个感知接地的混合推理框架。首先,他们构建了一个名为PAQA的新数据集,通过层次化解耦策略(区分语音与环境音、分离不同说话人)为模型提供显式的感知推理训练。在此基础上,提出了HyPeR框架,它包含两个阶段:第一阶段通过监督微调让模型学习结构化的显式感知与反思;第二阶段利用基于GRPO的强化学习,并引入特殊的<PAUSE> token来触发隐式潜在推理,以处理难以用语言描述的声学线索。实验表明,HyPeR在多个音频理解基准测试上显著降低了感知错误,性能可与更大规模的模型相媲美,验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟,且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架,整体架构如图1所示。 完整输入输出流程: 输入:原始音频信号 X_a 和文本问题 Q。 第一阶段(显式感知 - SFT):模型(基于Qwen2-Audio-7B-Instruct)被微调以生成结构化的推理链 T。这个过程是自回归的,每一步都依赖于前一步的输出: 规划 (P):基于音频和问题,规划解题逻辑。 描述 (C):提取多层声学特征,包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。 推理 (R):基于P和C进行逐步分析推理。 总结 (S):将推理合成为内部结论。 反思 (R‘):对背景音和说话人进行透明分析,并反思以改进答案。 这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。 过渡门控:在生成显式链后,模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE],则触发“思考-再说话”步骤;若低于 τ_abort,则直接中止轨迹。 第二阶段(隐式推理 - RL): 若触发<PAUSE>,模型生成一个<PAUSE>特殊标记,并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”,它们不输出到最终可见文本,也不参与后续自回归生成的梯度计算,仅用于迭代更新模型的内部隐藏状态 H_t,以进行更深入的音频特征处理。之后,模型恢复生成可见的最终答案。 整个过程由GRPO强化学习优化,奖励函数综合考虑答案准确性、格式合规性、感知一致性(如背景音鲁棒性、说话人-ASR保真度)和长度控制。 关键设计选择理由: ...

2026-04-19

On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation

📄 On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation #知识蒸馏 #自监督学习 #统一音频模型 #音频理解 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Changhao Cheng (上海交通大学,人工智能学院) 通讯作者:Yanmin Qian (上海交通大学,人工智能学院;听觉认知与计算声学实验室,教育部人工智能重点实验室) (推断,基于其资深作者身份及实验室负责人角色) 其他作者: Wei Wang (上海交通大学,人工智能学院) Wangyou Zhang (上海交通大学,计算机科学学院,听觉认知与计算声学实验室,教育部人工智能重点实验室) Dongya Jia (上海交通大学,人工智能学院) Jian Wu (字节跳动 Seed) Zhuo Chen (上海交通大学,人工智能学院) 💡 毒舌点评 亮点在于它像一个严谨的“调音师”,系统性地探索了语音VAE蒸馏损失的“调音旋钮”(时间轴、维度轴、联合边际),并找到了让重建、理解、生成这三个“声部”和谐共奏的新配方(JMAS-VAE)。槽点则是这“新配方”的调制过程有点复杂,引入的自适应权重和边际参数增加了训���和调参的“玄学”成分,且实验结论高度依赖于所选的教师模型(WavLM),换一个“老师”可能结论又得重写。 📌 核心摘要 本文针对现有语音变分自编码器(VAE)在统一语音重建、理解和生成任务上表现不平衡的问题(尤其是理解能力差),系统性地研究了蒸馏损失函数的设计空间。作者探索了三种将自监督学习(SSL)模型知识蒸馏到VAE潜在空间的方式:时间轴对齐(TAS)、维度轴对齐(DAS)和联合边际对齐(JMAS)。关键创新在于提出了JMAS损失,它不仅进行逐帧对齐,还通过边际余弦相似度和边际距离序列相似度损失来约束特征分布的结构一致性。此外,论文引入了基于梯度范数的自适应加权策略来动态平衡各项损失。大量实验表明,采用自适应加权的JMAS-VAE在重建、理解和生成三项任务的综合得分上取得了最优平衡,显著优于传统VAE和仅进行时间轴对齐的语义VAE。研究揭示了不同对齐方式对语义和声学信息保留的偏向性,为设计统一的语音表示提供了重要见解。 🏗️ 模型架构 该论文的核心是训练一个语音VAE模型,其架构基于 stable-audio-tools 框架。 整体流程:输入为原始语音波形,经过编码器下采样和潜在空间表示,再通过解码器重建语音波形。核心创新在于训练过程中,VAE的潜在表示会通过一个额外的投影层与一个预训练的语音SSL模型(WavLM Large)的中间特征进行对齐(蒸馏)。 主要组件: 编码器:采用DAC(Descript Audio Codec)编码器架构。输入语音信号经过一系列下采样操作(因子为{4,4,5,5}),最终得到一个64维、帧率为40Hz的连续潜在表示 z。 MLP投影层:一个线性层,将64维的潜在表示 z 投影到1024维,得到 z'。这个 z' 将用于与SSL特征进行对齐。 教师模型:使用预训练的 WavLM Large 模型。提取其第23层的特征作为蒸馏目标 f。该特征维度也为1024维,与 z' 对齐。 解码器:采用BigVGAN解码器,将潜在表示 z 上采样并重建为原始波形。 数据流:原始波形 → DAC编码器 → 潜在表示 z (64维) → MLP投影 → z' (1024维)。训练时,z' 与WavLM特征 f 计算蒸馏损失;同时,z 送入BigVGAN解码器进行重建。推理时,只需编码器和解码器。 设计理由:使用DAC和BigVGAN是因其在音频生成领域的有效性。将潜在空间与强大的SSL模型(WavLM)对齐,旨在注入丰富的语义和声学结构信息,弥补VAE自身在理解任务上的不足。 💡 核心创新点 联合边际对齐蒸馏损失(JMAS Loss): ...

2026-04-19

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Luoyi Sun(浙江大学,上海人工智能实验室) 通讯作者:Weidi Xie(上海交通大学,上海人工智能实验室) 其他作者: Xiao Zhou(上海人工智能实验室,上海交通大学) Zeqian Li(上海人工智能实验室,上海交通大学) Ya Zhang(上海人工智能实验室,上海交通大学) Yanfeng Wang(上海人工智能实验室,上海交通大学) 💡 毒舌点评 亮点:这篇论文的“时间戳交错序列”设计堪称“暴力美学”,直接把时间戳文本硬塞进音频Token序列里,让大语言模型像读句子一样“读”出时间,思路简单粗暴但异常有效。槽点:合成数据管道虽然巧妙,但用VGGSound配“Walking Tours”背景音,总感觉像是在录音棚里模拟“菜市场”,离真正的复杂声学场景还有点距离;另外,模型对“狗叫”这种瞬态声音的定位精度(见失败案例),似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 📌 核心摘要 本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单,导致在长音频中定位短暂事件(“大海捞针”)时表现不可靠。为此,作者提出了SpotSound框架,其核心创新在于:1)设计了时间戳交错序列,将绝对时间戳文本与音频特征交错输入LLM,提供显式的时间对齐信号;2)引入了抗幻觉训练目标,通过构建包含正负样本的判别式四元组,强制模型先判断事件是否存在,再进行定位,有效抑制了对不存在事件的幻觉定位。同时,论文构建了SpotSound-Bench基准,其中目标事件仅占音频总长的8.4%,模拟了真实的“稀疏事件定位”挑战。实验表明,SpotSound在多个时间定位基准上达到了最先进水平,并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型,其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取: 原始输入:一段音频 𝒜 和一个自然语言查询 ℚ。 音频编码:音频被重采样至16kHz,转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器(如Whisper-large-v3),该编码器包含一个步长为2的池化层,将时间分辨率压缩,每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新:时间戳交错序列构建 (Timestamp-Interleaved Sequence) 目的:为音频Token提供显式的、绝对的时间位置信息。 方法:对于每个时间索引 𝑡𝑖 (以1秒为粒度),创建一个文本Token “timestamp: 𝑡𝑖 seconds” (记为 𝐓𝑖),并将其直接放置在对应的音频Token 𝐀𝑖 之前。 序列格式:最终送入大语言模型的序列为:S = [𝐓₁; 𝐀₁; 𝐓₂; 𝐀₂; …; 𝐓ₙ; 𝐀ₙ; 𝐈; ℚ]。其中 𝐈 是任务指令(如“判断是否存在”或“定位时间”),ℚ 是查询文本。这相当于给LLM提供了一个带精确时间刻度的“音频文本混合文档”。 3. 两阶段推理流程: ...

2026-04-19

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

📄 Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt #音频理解 #音频事件检测 #音频大模型 #强化学习 #自回归模型 🔥 评分:8.3/10 | arxiv 👥 作者与机构 第一作者:Yanfeng Shi(中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Lirong Dai(中国科学技术大学,语音及语言信息处理国家工程研究中心),Yan Song(中国科学技术大学,语音及语言信息处理国家工程研究中心) 其他作者: Pengfei Cai(中国科学技术大学,语音及语言信息处理国家工程研究中心) Jun Liu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Qing Gu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Nan Jiang(中国科学技术大学,语音及语言信息处理国家工程研究中心) Ian McLoughlin(新加坡科技学院,ICT Cluster) 💡 毒舌点评 亮点在于巧妙地将“时间戳”伪装成一种特殊的“语言令牌”塞进音频特征序列里,让模型像读句子一样“读”出时间坐标,再用强化学习直接对齐音频事件检测的黄金指标,思路清晰且有效。槽点是这方法有点“取巧”,时间提示的窗口(0-30秒)和分辨率(0.04秒)是硬编码的,遇到更长或需要更高精度的音频就抓瞎,而且强化学习那套调参和训练效率的“玄学”问题,论文里轻描淡写了。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)在细粒度时间感知(如精确定位声音事件的起止时间)上的不足。作者提出了TimePro-RL框架,其核心是两步走策略:首先,提出音频侧时间提示(ASTP),将时间戳编码为特殊令牌并交织插入音频特征序列中,为模型提供明确的物理时间坐标;其次,在监督微调(SFT)后,引入基于强化学习(RL) 的后训练阶段,并设计了一种自适应时间奖励机制(结合事件F1分数和连续辅助奖励如mIoU),直接优化模型的时间对齐性能。实验表明,该方法在音频定位、声音事件检测和密集音频描述三个任务上,相比多种基线模型取得了显著提升,尤其在高精度时间定位指标上优势明显。局限性在于时间提示的范围和分辨率固定,且RL训练增加了复杂度。 🏗️ 模型架构 整体流程:模型基于现有的LALM(如Qwen2-Audio, Qwen2.5-Omni),其核心架构为音频编码器 + 大语言模型(LLM)。TimePro-RL通过修改输入模态和训练目标来增强其时序能力。 输入输出流程: 输入:一段原始音频波形 + 一个自然语言查询(例如:“火车道口铃声何时响起?”)。 音频编码:音频通过预训练的音频编码器(如Whisper)处理,输出一个音频特征序列(<AUDIO> tokens)。假设编码器帧率为25Hz,即每0.04秒输出一个特征向量。 时间提示注入:这是核心修改。在预处理阶段,根据音频时长和帧率,生成一系列时间戳令牌(Timestamp Tokens),如<0.04>, <0.08>等。这些令牌被交织插入到音频特征序列的对应时间位置上,形成新的输入序列:<s> <audio> <AUDIO> <0.04> <AUDIO> <0.08> <AUDIO> ... </audio> 当何时发生? </s>。 嵌入层处理: 音频特征:通过音频编码器映射为音频嵌入。 时间戳令牌:通过一个时间戳嵌入层映射为向量。该嵌入层采用语义初始化:每个时间戳嵌入向量初始化为其数字字符串(如“0.04”)经LLM原始分词器分词后,对应子词嵌入的均值。训练时,此嵌入层参数被冻结。 文本令牌:通过文本嵌入层映射为文本嵌入。 LLM处理:上述混合嵌入序列(音频+时间戳+文本)被送入大语言模型(自回归Transformer)。 输出:模型自回归地生成文本响应,格式根据任务而定(如{"query": [5.0, 6.0]})。 关键设计理由: ...

2026-04-19