音频理解 | 语音/音频论文速递

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

📄 SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning #说话人验证 #音频大模型 #音频理解 #多粒度表征 #结构化推理 #多任务学习 ✅ 7/10 | 前25% | #说话人验证 | #音频大模型 | #音频理解 #多粒度表征 | arxiv 学术质量 5.6/8 | 影响力 0.6/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：KiHyun Nam (韩国科学技术院 KAIST) 通讯作者：Joon Son Chung (韩国科学技术院 KAIST) 作者列表：KiHyun Nam (韩国科学技术院 KAIST), Jungwoo Heo (首尔大学), Siu Bae (韩国科学技术院 KAIST), Ha-Jin Yu (首尔大学), Joon Son Chung (韩国科学技术院 KAIST, 通讯作者) 💡 毒舌点评这篇论文的动机清晰，针对音频优先智能体时代通用Audio-LLM在说话人理解上的不足，提出了一个专用的框架。其核心亮点在于通过分层说话人分词器整合了互补的多粒度说话人表征，并设计了结构化、可审计的验证推理目标，将传统二分类问题转化为包含环境、剖面和决策链的自然语言推理过程，这在方法论上是新颖的。然而，其主要短板在于实验的说服力不足：虽然在受控的、规模有限的基线（通用Audio-LLM）上展示了优势，但缺乏与现代端到端说话人验证模型（如基于ECAPA-TDNN或ResNet的模型）在公认的大规模标准测试集（如VoxCeleb2测试集、VoxSRC）上的直接性能对比。这使得其“说话人专用”模型的实际性能水平（是超越还是不及当前SOTA）成疑，更像是一次在特定设定下的方法验证。此外，结构化推理模板的刚性可能限制了其在更复杂、开放场景下的泛化能力。 ...

Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

📄 Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models #音频问答 #音频理解 #强化学习 #音频大模型 🔥 评分：9.5/10 | arxiv 👥 作者与机构第一作者： Xiang He (腾讯AI Lab, 北京) 通讯作者： Li Liu (香港科技大学（广州）), Dong Yu (腾讯AI Lab, 北京) 其他作者： Chenxing Li (腾讯AI Lab, 北京) Jinting Wang (腾讯AI Lab, 北京) Yan Rong (腾讯AI Lab, 北京) Tianxin Xie (腾讯AI Lab, 北京) Wenfu Wang (腾讯AI Lab, 北京) 💡 毒舌点评亮点：这篇论文最“性感”的地方在于它证明了在音频领域，像教婴儿学走路一样，不需要手把手教（监督微调），只需要给对“奖励信号”（混合相似度奖励），模型自己就能在探索中“悟”出如何推理，而且悟性还特别好（SOTA）。槽点：依赖一个巨大的外部LLM（Qwen3-235B）作为奖励评估器，训练成本恐怕不菲，有点像请米其林三星大厨来给家常菜打分，效果虽好但难以普及。另外，参考推理链本身也依赖其他大模型生成，属于“站在巨人的肩膀上再创造”，原创性在数据层面稍打折扣。 🔗 开源详情代码：论文中提到“代码和数据将开源”，但未提供具体链接或时间表。当前未开源。模型权重：未提及发布训练后的Audio-DeepThinker模型权重。数据集：构建的训练数据（D1, D2）将随代码一同开源，但当前未发布。预训练权重：基于开源的Qwen3-Omni-30B-A3B-Instruct模型。在线Demo：未提及。引用的开源项目：依赖Qwen3-Omni、DeepSeek V3.1、BGE-M3等模型，以及SWIFT、Megatron-LM等训练框架。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALMs）缺乏显式、高质量推理能力的问题。现有方法要么受限于监督数据的质量，要么使用粗糙的奖励，导致生成的思维链形式良好但缺乏声学依据。作者提出了Audio-DeepThinker框架，其核心贡献有三：1）设计了一种混合推理相似度奖励，结合LLM评估（逻辑、深度）和嵌入相似度（语义对齐），直接对推理链内容进行细粒度监督；2）提出了一个渐进式两阶段RL课程，首先在基础音频QA数据上通过纯RL探索激发基本推理模式，然后在声学边界案例上使用更灵活的奖励进行增强，全程无需监督推理微调；3）进行了深入的机理分析，揭示RL训练主要重塑上层MoE门控机制，且推理token在上层网络中逐步“结晶”。该方法在MMAR、MMAU和MMSU上取得了SOTA性能，证明了通过精心设计的奖励和课程，高质量的音频推理能力可以从RL探索中涌现。 ...

A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven's Piano and Cello Sonatas

📄 A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven’s Piano and Cello Sonatas #音乐信息检索 #音频理解 #信号处理 ✅ 评分：7.8/10 | arxiv 👥 作者与机构第一作者（推断）：Ignasi Sole (ignasiphd@gmail.com) （推断为独立研究者或博士生，论文未明确标注所属机构）通讯作者（推断）：Ignasi Sole (ignasiphd@gmail.com) 其他作者：Jordi Altayó（KTH皇家理工学院，VLSI设计博士研究员，协议合作开发者） 💡 毒舌点评这篇论文的亮点在于，当高大上的AI算法在“老破小”的历史录音面前集体翻车时，作者没有硬着头皮调参，而是非常务实地回归了“人肉计算”，并且把这个手动过程包装得极其严谨、透明，甚至比很多黑箱算法还让人信服。槽点则是，在2026年还在主推一个耗时数百小时的手动计时协议，这方法论“复古”得让人梦回上世纪，可扩展性基本为零，堪称音乐分析领域的“手工匠人精神”展演。 🔗 开源详情代码：是。Python代码（用于生成山脊图）和MATLAB代码（用于生成直方图）已在GitHub公开。地址：https://github.com/isolepinas/PhD-Appendix/tree/main/Tempo%20Dataset （论文中提及）。模型权重：不适用，本文非机器学习模型。数据集：是。完整的BPM数据集（包含累积时间戳、小节时长、计算出的BPM值）已在上述GitHub仓库公开。涵盖贝多芬五首钢琴与大提琴奏鸣曲的100多份录音。预训练权重：不适用。在线Demo：未提及。论文中引用的开源项目：Sonic Visualizer, MUsanim (Music Animation Machine toolkit), Seaborn, Matplotlib, Pandas。 📌 核心摘要本文旨在解决现有自动化节拍提取工具在分析历史复调室内乐录音（特别是贝多芬钢琴与大提琴奏鸣曲）时出现的系统性失败问题。作者与一名VLSI工程师合作，设计并验证了一套形式化的手动逐小节速度测量协议。该协议采用累积时间戳架构，使用数字秒表的圈速功能记录每个小节结束的累积时间，从而计算小节时长与瞬时BPM。其核心优势在于防止误差累积、允许内部自验证（所有小节时长之和必须等于总时长），并能精确捕捉自由速度、延长记号等表情性节奏变化。作者将该协议应用于1930年至2012年间超过100份录音，生成了公开的BPM数据集，并开发了包含tempograph、直方图、山脊图等多类型可视化工具套件。研究表明，在特定条件下，经过严谨设计和误差量化的人工标注方法，其可靠性和对音乐表现力的捕捉能力优于失效的自动化工具。该论文的主要贡献是方法论上的，为处理类似“困难”录音语料提供了可复现的解决方案。 🏗️ 模型架构本文的核心并非一个计算模型，而是一套手动数据收集与处理协议。其整体架构（流程）如下：输入：历史复调室内乐录音（音频文件）及对应乐谱。核心测量流程：工具：具备CSV导出功能的数字秒表应用（圈速计时器）。操作：注释者跟随录音，在乐谱上标记的每个小节线处按下“圈速”按钮。数据记录：秒表记录下从乐章开始到每个小节结束的累积时间戳（T_i），而非独立的小节时长。数据处理与计算：将累积时间戳导入电子表格（如Google Sheets）。核心计算：小节时长：Δt_i = T_i - T_{i-1} （其中 T_0 = 0）。小节BPM：BPM_i = (n_i * 60) / Δt_i，其中 n_i 是该小节的拍数（来自节拍号）。内部自验证：检查所有 Δt_i 的总和是否等于最终的累积时间 T_M（即乐章总时长），以此发现漏按或错按。误差建模：分析人类反应时间（约±0.1秒）对单个BPM值的影响，并通过数学推导证明该误差是随机的、非累积的，且在段落平均中会相互抵消。输出：每个乐章、每个录音的逐小节BPM数据集，以及基于此的多种可视化图表（tempograph, 直方图, 山脊图等）。关键设计选择理由： ...

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

📄 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs #音频理解 #统一音频模型 #强化学习 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Linhao Zhang（腾讯微信AI，基础模型技术中心）通讯作者：推断为 Houfeng Wang（北京大学计算机科学学院，多媒体信息处理国家重点实验室）和 Xiao Zhou（腾讯微信AI，基础模型技术中心），基于资深作者位置及实验室负责人身份。其他作者： Yuhan Song（北京大学计算机科学学院，多媒体信息处理国家重点实验室） Aiwei Liu（腾讯微信AI，基础模型技术中心） Chuhan Wu（腾讯微信AI，基础模型技术中心） Sijun Zhang（腾讯微信AI，基础模型技术中心） Wei Jia（腾讯微信AI，基础模型技术中心） Yuan Liu（腾讯微信AI，基础模型技术中心） 💡 毒舌点评亮点：这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点，并一针见血地指出病根在于ASR（语音识别）的“填鸭式”教学——只教认字，不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”，强制它去听语气、听环境，效果立竿见影。槽点：方法虽好，但“药方”（训练数据）全靠其他模型“合成”，虽然做了人工验证，但终究是“二手信息”，长期来看可能限制模型感知能力的上限。另外，论文主要在高资源语言（中英文）上验证，对于方言或低资源语言的效果还是个问号。 🔗 开源详情代码与模型：论文明确声明代码和模型已公开，地址为：https://github.com/Tencent/Unified_Audio_Schema。但截至分析时，该链接的有效性及具体内容（如star数、框架）需进一步核实。数据集：UAS训练数据是通过自动化流水线从现有数据集合成的，论文未提及是否单独公开该合成后的UAS格式数据集。预训练权重：基于Qwen2.5-7B构建，但未提及是否单独提供预训练权重。在线Demo：论文中未提及。依赖的开源项目：论文中明确引用了多个开源模型和数据集，如Qwen系列模型、StableToken、HiFi-GAN、LibriSpeech、GigaSpeech等。 📌 核心摘要这篇论文旨在解决当前音频大语言模型（AudioLLMs）在细粒度声学感知任务上表现不佳的核心问题。作者指出，主流的以自动语音识别（ASR）为中心的训练范式，通过将音频映射到纯文本转录，系统性地丢弃了副语言学（如情感、语调）和非语言声学事件信息，导致模型成为“语言巨人，听觉矮子”。为此，他们提出了一种统一音频模式（UAS），这是一种结构化的JSON表示，将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分，从而在训练中保留完整的声学线索。基于UAS，作者构建了可扩展的自动数据生成流水线，并训练了UAS-Audio模型。实验表明，UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升，同时保持了强大的推理能力，并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号，是提升AudioLLMs综合能力的有效途径。 🏗️ 模型架构 UAS-Audio的整体架构遵循当前主流的连续表示AudioLLM范式，包含四个核心组件，其输入输出流程如下：输入：原始音频波形。输出：文本（如转录、问答、结构化UAS）或生成的语音波形。核心组件与数据流：音频编码器：使用AuT (Audio Transformer) 作为连续音频编码器。它将原始波形转换为连续的音频表示向量序列。投影层：一个简单的线性投影层。它将音频编码器输出的向量映射到与大语言模型（LLM）词嵌入空间对齐的维度。这是连接音频与文本模态的关键桥梁。大语言模型骨干：采用Qwen2.5-7B作为核心推理引擎。它接收来自投影层的音频特征和文本提示的嵌入，进行自回归解码，生成文本响应。在训练的某些阶段，LLM也被扩展以处理离散音频令牌。语音解码器：基于流匹配（Flow Matching）架构，并配备HiFi-GAN声码器。当需要语音生成时，LLM输出的离散音频令牌（来自StableToken）被送入此解码器，先转换为梅尔频谱图，再合成最终波形。训练阶段与模块状态：阶段1：离散令牌对齐：仅训练LLM的嵌入层和输出头，通过ASR和TTS任务，让LLM学会处理离散音频代码，为语音生成做准备。阶段2：音频LLM适应：冻结LLM和音频编码器，仅训练投影层。使用UAS标注数据进行训练，使模型从一开始就建立对结构化声学信息的理解。阶段3：全指令调优：解冻除音频编码器外的所有参数。在混合数据（基础音频数据、UAS标注、UAS-QA）上进行多任务训练，综合提升感知、推理和生成能力。阶段4：GRPO：使用群体相对策略优化（GRPO）进行强化学习，进一步提升模型性能。架构选择理由：该设计复用了经过验证的成熟组件（如Qwen2.5、流匹配解码器），创新点不在于模块本身，而在于如何使用UAS数据来训练这些模块，特别是通过阶段2的针对性适应，避免了模型陷入传统的ASR中心表征。 ...

Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning

📄 Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning #音频分类 #时频分析 #信号处理 #音频理解 🔥 评分：8.2/10 | arxiv 👥 作者与机构第一作者：Mahmoud Fakhry（西班牙卡洛斯三世大学，信号理论与通信系；埃及阿斯旺大学，电气工程系）通讯作者：Ascensión Gallardo-Antolín（西班牙卡洛斯三世大学，信号理论与通信系）其他作者：无 💡 毒舌点评亮点：这篇论文的“混搭”思路很有意思，把经典的信号处理工具（Gabor字典、弹性网络）和现代深度学习（CNN-LSTM）结合，像用老式显微镜（稀疏建模）观察细胞（心音），再用最新的AI修图软件（CNN）进行分类，最终效果拔群。槽点：论文的排版和表格格式堪称“灾难”，多个表格数据错位、符号乱码（如98.95 % 98.95\%），严重影响阅读体验；此外，虽然声称“深度学习”，但核心网络结构相对简单，更像是对特征工程工作的验证。 🔗 开源详情代码：论文中未提及代码开源计划，未提供GitHub等地址。模型权重：论文中未提及模型权重的公开信息。数据集：使用的是公开可用的心音数据集（具体名称未在节选全文中明确给出，但根据描述应为常用数据集），论文中未声明自己发布新数据集。预训练权重：未提及。在线Demo：未提及。引用的开源项目：未在节选部分明确列出。 📌 核心摘要本文旨在解决心音信号（PCG）的多分类问题，以辅助心血管疾病的自动诊断。核心贡献在于提出了一套结合优化Gabor字典和弹性网络正则化的特征提取框架，并与CNN-LSTM深度学习网络相结合。具体而言，作者首先通过系统性地调整Gabor原子的时频分辨率（尺度参数β）和弹性网络的正则化参数（α），为心音信号寻找最优的稀疏表示模型（系数向量a）。然后，将这些系数向量重塑为具有物理意义的2D时间-频率特征矩阵，作为分类网络的输入。实验在包含五种心脏瓣膜疾病的1000条记录数据集上进行，最终提出的“1D+2D CNN-LSTM”网络在ADAM优化器和最优特征（β=2¹，α=0.1）下，取得了**98.95%**的最高分类准确率，显著优于使用原始信号或传统VMD特征的基线方法。该方法的局限性在于数据集规模相对较小，且网络架构的复杂性并未达到当前最深模型的水平。 🏗️ 模型架构本文提出的系统分为两个主要阶段：特征计算与分类。整体流程：原始PCG信号 → 预处理（截断/补零、降采样、标准化） → 通过优化后的Gabor字典和弹性网络正则化计算系数向量a → 对a应用加权对数函数得到特征向量b → 将b重塑为2D时间-频率特征矩阵B → 输入到CNN-LSTM分类网络中 → 输出五类心脏疾病的分类概率。特征计算阶段：输入：长度为L=2^11的标准化PCG信号向量x。核心模型：通过求解弹性网络正则化问题 min_a (1/(2N))||x - D_j a||₂² + λ((1-α)/2 ||a||₂² + α ||a||₁) 来估计系数向量a。其中D_j是第j个Gabor字典，其原子的尺度参数β=2^j，α控制稀疏性（α=0为岭回归，α=1为LASSO）。特征变换与重塑：对系数向量a进行标准化和归一化后，应用加权对数函数 b_m = -|a_m| log|a_m| 得到特征向量b。然后，根据字典D_j的结构（行数=2^(j+1)，列数=2^(N-j+1)），将长度为2^(N+2)的向量b重塑为2D矩阵B。矩阵的每一行对应一个频率点，每一列对应一个时间平移位置。分类网络阶段：论文提出了两种架构： ...

Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram

📄 Enhancing time-frequency resolution with optimal transport and barycentric fusion of multiple spectrogram #信号处理 #时频分析 #音频生成 #音频理解 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：David Valdivia（法国图卢兹大学 IRIT 实验室）通讯作者：Cédric Févotte（法国图卢兹大学 IRIT 实验室）其他作者：Elsa Cazelles（法国图卢兹大学 IRIT 实验室） 💡 毒舌点评亮点：这篇论文巧妙地将最优传输（OT）理论“嫁接”到经典的时频分析难题上，为解决Gabor-Heisenberg不确定性原理带来的分辨率权衡问题提供了新颖且数学严谨的视角。其设计的结构化代价矩阵和对应的无熵正则化UOT算法是两大技术亮点，显著提升了融合质量和计算效率。槽点：方法虽然精巧，但更像一个“后期处理工具”，而非端到端的解决方案。它严重依赖于输入谱图的质量，且目前主要聚焦于提升分辨率这一单一目标，对于更复杂的音频任务（如去噪、分离）的集成路径尚不明确。此外，算法虽比传统OT快，但面对超长音频或实时处理场景，其迭代优化的本质可能仍是瓶颈。 🔗 开源详情代码：论文中提到“The code used to reproduce the figures and experiments is available online.” 并提供了一个GitHub链接：https://github.com/davidvaldiviad/fusion-ot。代码已开源。模型权重：不适用。本文提出的是优化算法，而非可训练的模型。数据集：实验使用了公开的 PTDB-TUG 语音数据库 [pirker2011pitch]。合成数据由作者根据描述生成。预训练权重：不适用。在线 Demo：论文中未提及。论文中引用的开源项目：提到了 POT (Python Optimal Transport) 库 [POT] 用于对比实验。 📌 核心摘要核心问题：短时傅里叶变换（STFT）生成的谱图受制于不确定性原理，无法同时获得优异的时间和频率分辨率。传统融合方法（如几何平均）要求输入谱图网格对齐，且性能有限。核心方法：本文提出一种基于最优传输（OT）的谱图融合方法。将不同分辨率的谱图视为时频平面上的非负能量分布，通过计算它们的非平衡最优传输（UOT）重心来生成一个“超分辨率”谱图。关键创新包括：1）设计了结构化代价矩阵，将能量传输约束在时间或频率轴的相邻点，符合时频物理意义；2）提出了一个块状Majorization-Minimization（MM）算法，可直接求解无熵正则化的UOT重心问题，避免了传统方法因熵正则化导致的谱图模糊。主要发现：在合成信号和真实语音上的实验表明，该方法能有效结合输入谱图的最佳特性：既保留了长窗口谱图的高频率分辨率，又继承了短窗口谱图的高时间分辨率。在频率定位、时间定位和谐波浓度等多项指标上，均优于输入谱图及几何平均基线方法，且“不同网格”设置在保持性能的同时大幅降低了计算成本。实际意义：为音频和信号处理领域提供了一种强大的后处理工具，可用于生成更清晰、信息更丰富的时频表示，对语音分析、音乐信息检索、声学事件检测等依赖高质量谱图的任务具有直接应用价值。 ...

Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models

📄 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models #音频理解 #大语言模型 #少样本 #低资源 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Ryandhimas E. Zezario（推断为台湾中央研究院资讯科学研究所，根据论文[23]引用及常见合作模式）通讯作者：Hsin-Min Wang（台湾中央研究院资讯科学研究所），Yu Tsao（台湾中央研究院资讯科学研究所）其他作者：Dyah A. M. G. Wisnu（印度尼西亚玛琅国立大学电气工程系），Szu-Wei Fu（台湾中央研究院资讯科学研究所），Sabato Marco Siniscalchi（意大利卡塔尼亚大学电子工程系）（注：论文HTML全文未明确列出所有作者的具体机构，以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。） 💡 毒舌点评亮点在于巧妙地将大语言模型（LLM）定位为“元评估器”，通过整合轻量级声学特征和现有模型的伪标签（DNSMOS， VQScore），而非直接处理原始音频，规避了LLM在音频理解上的短板，思路颇具巧思。槽点则是实验数据集过于单一（仅VoiceBank-DEMAND），且在“全样本评估”中少样本版本性能反而下降，暴露出其方法对示例选择的高度敏感性，结论的普适性有待商榷，有“为了用LLM而用LLM”之嫌。 🔗 开源详情代码：论文提到代码将在GitHub上发布（“Report GitHub Issue ×”提示了代码仓库的存在），但HTML全文未提供具体链接。论文中未给出可访问的GitHub地址。模型权重：GatherMOS本身不涉及训练新模型权重。它依赖的DNSMOS和VQScore的预训练权重分别在各自的GitHub仓库公开。所使用的LLM（GPT-5）为闭源API。数据集：评估使用公开的VoiceBank-DEMAND数据集。少样本示例来自另一个公开数据集CHiME-7 UDASE任务。预训练权重：不适用。在线 Demo：论文中未提及。论文中引用的开源项目：明确提到了使用DNSMOS和VQScore的官方GitHub检查点。 📌 核心摘要本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架，其核心是将大语言模型（如GPT-5）作为一个元评估器，通过精心设计的文本提示，融合多类异构信号：包括手工声学描述符（如RMS、ZCR、MFCC统计量）和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明，在VoiceBank-DEMAND数据集上，零样本GatherMOS已优于基线方法，而精心匹配的少样本引导能带来显著提升（在子集上SRCC达0.8473）。然而，当少样本示例与测试集分布不匹配时，性能会下降，揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性，为低资源场景下的语音质量评估提供了新思路。 🏗️ 模型架构 GatherMOS并非一个从头训练的模型，而是一个推理框架，其核心是利用预训练LLM的上下文学习能力。整体架构和流程如下：输入：一段原始语音波形 x。特征与伪标签提取（并行进行）：手工声学描述符提取器：从 x 中提取一系列低级特征，包括：时域能量：RMS（均方根）。频域/噪声相关：ZCR（过零率）。信号完整性：是否削波（Clipping）、时长（Duration）。频谱包络：13维MFCC的帧平均值。频谱分布：梅尔频谱图的每-bin均值和方差、全局最大/最小值。伪标签生成器（冻结）： DNSMOS：输入语音，输出一个1到5之间的连续分数 s_DNS，代表感知质量。 VQScore：输入语音，输出一个0到1之间的分数 s_VQ，代表语音质量。输入序列化与提示构建：将所有提取的描述符 {d_i}、伪标签 s_DNS 和 s_VQ，以及针对LLM的指令（例如：“您是语音质量评估专家…请估计分数…”），共同组织成一个结构化的文本提示（Prompt）。对于少样本版本，还会在提示中加入K个“支持样本”（few-shot examples），每个样本包含其特征、伪标签和对应的真实MOS分数。 LLM推理：将构建好的文本提示输入给大型语言模型（论文中为GPT-5）。LLM根据其内置的推理能力，对提示中的所有信息进行综合分析、权衡和“推理”。输出：LLM生成两部分文本输出：主输出：预测的连续MOS分数 ŝ。辅助输出：解释性属性 a，如噪声水平、是否削波、混响程度以及一段解释性文字，说明其预测依据。关键设计选择理由： ...

Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding

📄 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding #音频理解 #强化学习 #大语言模型 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Jieyi Wang (上海AI实验室，北京大学) 通讯作者：Yazhe Niu (CUHK MMLab) 其他作者：Dexuan Xu (北京大学)，Zhongyu Wei (复旦大学) 💡 毒舌点评亮点：论文的“PAUSE” token设计很巧妙，它让模型在遇到听不清、分不清的“声音玄学”时，能先“闭嘴琢磨一下”再回答，模仿了人类“想一想再说”的认知过程，这是对现有音频大模型推理机制的一个有趣补充。槽点：整个框架的“仪式感”太强，从数据构建到两阶段训练再到复杂的奖励函数，工程复杂度拉满，但最终在部分指标上的提升幅度，相对于其付出的计算和开发成本，性价比有待商榷，且PAUSE机制带来的推理延迟是实打实的。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/JOY-SWang/HyPeR。模型权重：论文中未明确提及是否公开模型权重。数据集：PAQA数据集已开源，可通过上述GitHub地址获取。预训练权重：基于Qwen2-Audio-7B-Instruct进行微调。在线Demo：论文中未提及。引用的开源项目：依赖Qwen2-Audio、MUSAN数据集、FSD50K数据集、CLAP模型等。 📌 核心摘要本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发，作者提出了一个感知接地的混合推理框架。首先，他们构建了一个名为PAQA的新数据集，通过层次化解耦策略（区分语音与环境音、分离不同说话人）为模型提供显式的感知推理训练。在此基础上，提出了HyPeR框架，它包含两个阶段：第一阶段通过监督微调让模型学习结构化的显式感知与反思；第二阶段利用基于GRPO的强化学习，并引入特殊的<PAUSE> token来触发隐式潜在推理，以处理难以用语言描述的声学线索。实验表明，HyPeR在多个音频理解基准测试上显著降低了感知错误，性能可与更大规模的模型相媲美，验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟，且PAQA数据集的规模和领域覆盖仍有待扩展。 🏗️ 模型架构 HyPeR是一个统一的两阶段混合感知-推理框架，整体架构如图1所示。完整输入输出流程：输入：原始音频信号 X_a 和文本问题 Q。第一阶段（显式感知 - SFT）：模型（基于Qwen2-Audio-7B-Instruct）被微调以生成结构化的推理链 T。这个过程是自回归的，每一步都依赖于前一步的输出：规划 (P)：基于音频和问题，规划解题逻辑。描述 (C)：提取多层声学特征，包括环境音标签 <ENV>、说话人动态 <SPEAKER> 和语音内容 <ASR>。推理 (R)：基于P和C进行逐步分析推理。总结 (S)：将推理合成为内部结论。反思 (R‘)：对背景音和说话人进行透明分析，并反思以改进答案。这个显式链 T = {P, C, R, S, R’} 作为最终答案的逻辑感知依据。过渡门控：在生成显式链后，模型计算“最低组置信度”(LGC)。若LGC落入中间模糊区间 (τ_abort, τ_PAUSE]，则触发“思考-再说话”步骤；若低于 τ_abort，则直接中止轨迹。第二阶段（隐式推理 - RL）：若触发<PAUSE>，模型生成一个<PAUSE>特殊标记，并启动一个潜在推理序列 z_1:L。这些潜在token是“非易失性计算缓存”，它们不输出到最终可见文本，也不参与后续自回归生成的梯度计算，仅用于迭代更新模型的内部隐藏状态 H_t，以进行更深入的音频特征处理。之后，模型恢复生成可见的最终答案。整个过程由GRPO强化学习优化，奖励函数综合考虑答案准确性、格式合规性、感知一致性（如背景音鲁棒性、说话人-ASR保真度）和长度控制。关键设计选择理由： ...

On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation

📄 On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation #知识蒸馏 #自监督学习 #统一音频模型 #音频理解 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Changhao Cheng (上海交通大学，人工智能学院) 通讯作者：Yanmin Qian (上海交通大学，人工智能学院；听觉认知与计算声学实验室，教育部人工智能重点实验室) (推断，基于其资深作者身份及实验室负责人角色) 其他作者： Wei Wang (上海交通大学，人工智能学院) Wangyou Zhang (上海交通大学，计算机科学学院，听觉认知与计算声学实验室，教育部人工智能重点实验室) Dongya Jia (上海交通大学，人工智能学院) Jian Wu (字节跳动 Seed) Zhuo Chen (上海交通大学，人工智能学院) 💡 毒舌点评亮点在于它像一个严谨的“调音师”，系统性地探索了语音VAE蒸馏损失的“调音旋钮”（时间轴、维度轴、联合边际），并找到了让重建、理解、生成这三个“声部”和谐共奏的新配方（JMAS-VAE）。槽点则是这“新配方”的调制过程有点复杂，引入的自适应权重和边际参数增加了训��和调参的“玄学”成分，且实验结论高度依赖于所选的教师模型（WavLM），换一个“老师”可能结论又得重写。 🔗 开源详情代码：论文明确提及代码已开源，GitHub地址为：https://github.com/changhao-cheng/JMAS-VAE。使用框架为 stable-audio-tools。模型权重：论文中未明确说明是否公开模型权重，但根据开源代码的惯例，很可能会在GitHub或HuggingFace上提供。论文提到“release models and code”。数据集：训练和评估所用数据集（Libriheavy, LibriSpeech, LibriTTS）均为公开学术数据集。预训练权重：使用了公开的预训练模型：WavLM Large (用于提取教师特征)、DAC编码器和BigVGAN解码器 (作为VAE骨干)。在线Demo：论文中未提及在线演示。依赖的开源项目： stable-audio-tools (Stability AI) WavLM (Microsoft) F5-TTS (用于生成任务评估) Vocos (用于重建任务评估的声码器) Libriheavy, LibriSpeech, LibriTTS 数据集。 📌 核心摘要本文针对现有语音变分自编码器（VAE）在统一语音重建、理解和生成任务上表现不平衡的问题（尤其是理解能力差），系统性地研究了蒸馏损失函数的设计空间。作者探索了三种将自监督学习（SSL）模型知识蒸馏到VAE潜在空间的方式：时间轴对齐（TAS）、维度轴对齐（DAS）和联合边际对齐（JMAS）。关键创新在于提出了JMAS损失，它不仅进行逐帧对齐，还通过边际余弦相似度和边际距离序列相似度损失来约束特征分布的结构一致性。此外，论文引入了基于梯度范数的自适应加权策略来动态平衡各项损失。大量实验表明，采用自适应加权的JMAS-VAE在重建、理解和生成三项任务的综合得分上取得了最优平衡，显著优于传统VAE和仅进行时间轴对齐的语义VAE。研究揭示了不同对齐方式对语义和声学信息保留的偏向性，为设计统一的语音表示提供了重要见解。 ...

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Luoyi Sun（浙江大学，上海人工智能实验室）通讯作者：Weidi Xie（上海交通大学，上海人工智能实验室）其他作者： Xiao Zhou（上海人工智能实验室，上海交通大学） Zeqian Li（上海人工智能实验室，上海交通大学） Ya Zhang（上海人工智能实验室，上海交通大学） Yanfeng Wang（上海人工智能实验室，上海交通大学） 💡 毒舌点评亮点：这篇论文的“时间戳交错序列”设计堪称“暴力美学”，直接把时间戳文本硬塞进音频Token序列里，让大语言模型像读句子一样“读”出时间，思路简单粗暴但异常有效。槽点：合成数据管道虽然巧妙，但用VGGSound配“Walking Tours”背景音，总感觉像是在录音棚里模拟“菜市场”，离真正的复杂声学场景还有点距离；另外，模型对“狗叫”这种瞬态声音的定位精度（见失败案例），似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 🔗 开源详情代码：已开源。GitHub地址：https://loiesun.github.io/spotsound/ (指向项目主页，代码应托管于此)。模型权重：已公开。在HuggingFace上发布，包括基于Qwen2-Audio和Audio Flamingo 3的两个变体（SpotSound-Q和SpotSound-A）。数据集： SpotSound-Bench：已公开，包含300个音频-query-timestamp三元组，可通过项目主页获取。训练数据：论文中提到的合成数据管道和混合数据集的具体发布情况未明确说明，但强调“Code, models and benchmark are released”。在线Demo：论文中未提及在线Demo地址。引用的开源项目：依赖于Qwen2-Audio、Audio Flamingo 3、Whisper、DeepSeek-v3、Qwen2等开源模型。 📌 核心摘要本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单，导致在长音频中定位短暂事件（“大海捞针”）时表现不可靠。为此，作者提出了SpotSound框架，其核心创新在于：1）设计了时间戳交错序列，将绝对时间戳文本与音频特征交错输入LLM，提供显式的时间对齐信号；2）引入了抗幻觉训练目标，通过构建包含正负样本的判别式四元组，强制模型先判断事件是否存在，再进行定位，有效抑制了对不存在事件的幻觉定位。同时，论文构建了SpotSound-Bench基准，其中目标事件仅占音频总长的8.4%，模拟了真实的“稀疏事件定位”挑战。实验表明，SpotSound在多个时间定位基准上达到了最先进水平，并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型，其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取：原始输入：一段音频 𝒜 和一个自然语言查询 ℚ。音频编码：音频被重采样至16kHz，转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器（如Whisper-large-v3），该编码器包含一个步长为2的池化层，将时间分辨率压缩，每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新：时间戳交错序列构建 (Timestamp-Interleaved Sequence) ...