音频场景理解

Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs

📄 Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs #音频大模型 #基准测试 #音频场景理解 #语音识别 #链式推理 ✅ 7.0/10 | 前25% | #基准测试 | #链式推理 | #音频大模型 #音频场景理解学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Han Yin（KAIST 电气工程学院）通讯作者：Jung-Woo Choi（KAIST 电气工程学院）作者列表：Han Yin（KAIST 电气工程学院）、Jung-Woo Choi（KAIST 电气工程学院） 💡 毒舌点评亮点：论文精准切中了当前LALM评估的一个盲区——现实世界音频中“人声”与“环境声”的能量博弈及其联合理解，提出了首个明确建模SNR差异的综合基准，这个问题的提出本身就比很多论文更有价值。短板：实验部分主要依赖一个通用的文本嵌入模型来“迂回”评估模型对场景和事件的分类能力，这更像是一个工程上的权宜之计，而非严谨的评估范式；此外，只选了4个模型做评测，结论的普遍性略显不足。 🔗 开源详情代码：论文承诺公开代码，项目主页为 https://sites.google.com/view/sseu-bench。论文中未直接提供具体代码仓库链接。模型权重：论文评估的是已有开源LALM，未提及提供新的模型权重。数据集：论文核心贡献之一SSEU-Bench数据集将公开，可通过项目主页获取。 Demo：论文未提及在线演示。复现材料：论文提供了详细的评估方法描述、CoT推理步骤说明，并声称将公开所有Prompt模板。论文中引用的开源项目：依赖DESED、MAESTRO-Real数据集，VCTK语料库，以及被评估的开源模型（LTU-AS, Qwen2-Audio, Kimi-Audio, Step-Audio）和CLAP模型。评估中使用了OpenAI的文本嵌入模型API。 📌 核心摘要要解决什么问题：现有大型音频语言模型（LALM）的评估基准忽略了两个关键现实特征：a) 音频信号通常混合了前景语音和背景非语音声音，且两者能量（信噪比）差异显著；b) 缺乏对同一音频片段中语音、场景和事件的联合理解评估。方法核心是什么：作者提出了SSEU-Bench，一个全新的音频理解基准。该基准通过混合纯净语音（来自VCTK）和真实环境背景音（来自DESED和MAESTRO-Real），并设置不同的信噪比（SNR），构建了21.72小时的测试音频。评估任务包括三个：自动语音识别（ASR）、声学场景分类（ASC）和音频事件标记（AT），并设计了“独立理解”和“联合理解”两种评估范式。此外，引入了链式思维（CoT）引导的推理方法来提升联合理解性能。与已有方法相比新在哪里：这是首个显式建模语音与非语音能量差异，并在同一音频上联合评估语音、场景、事件理解能力的基准。它超越了以往基准（如OpenAQA、AudioBench）多任务独立评估的模式，更贴近真实交互场景。主要实验结果如何：独立理解： CLAP系列模型在ASC和AT任务上显著优于LALM。在ASR上，Kimi-Audio表现最鲁棒（平均WER 8.78%），而LTU-AS因依赖外部ASR而表现极差（平均WER 89.29%）。联合理解影响：联合任务对不同LALM影响不一。例如，Qwen2-Audio-Instruct在联合模式下性能全面下降（WER从16.59升至22.16，mACC从31.24降至21.86）。Step-Audio 2 Mini则倾向于优先完成ASR，导致ASC和AT性能下降。 CoT效果： CoT能有效提升联合理解性能。例如，对Step-Audio 2 Mini，CoT使平均AT mAP提升了约4%。模型模式 WER ↓ (ASR) mACC ↑ (ASC) mAP ↑ (AT) Qwen2-Audio-Instruct 独立 16.59±0.1 31.24±0.1 33.42±0.1 联合 22.16±0.4 21.86±0.1 16.52±1.1 Kimi-Audio 独立 10.19±0.1 22.01±0.2 24.20±0.3 联合 17.84±0.6 22.80±0.2 26.91±0.4 Step-Audio 2 Mini 独立 22.27±0.5 35.73±0.3 36.73±0.5 联合 19.01±0.2 24.39±0.4 30.22±0.2 实际意义是什么：推动LALM在更真实、更复杂的声学场景下进行评估和优化，为开发具备全面音频感知能力（听清说什么、听出在哪、听懂周围有什么）的下一代音频AI提供了关键的测试平台和初步改进思路（CoT）。主要局限性是什么： a) 评估ASC和AT时，依赖外部文本嵌入模型计算相似度作为分类依据，可能无法完全反映LALM自身的分类能力；b) 仅评估了4个开源LALM，结论的普适性有待更多模型验证；c) CoT提示需要额外的推理步骤，增加了推理成本。 🏗️ 模型架构本文的核心贡献不是提出新的LALM架构，而是提出一个评估框架（SSEU-Bench）和一种推理增强方法（CoT）。 ...

Class-Aware Permutation-Invariant Signal-to-Distortion Ratio for Semantic Segmentation of Sound Scene with Same-Class Sources

📄 Class-Aware Permutation-Invariant Signal-to-Distortion Ratio for Semantic Segmentation of Sound Scene with Same-Class Sources #音频场景理解 #多任务学习 #置换不变训练 #空间音频 #信号处理 ✅ 7.5/10 | 前25% | #音频场景理解 | #多任务学习 | #置换不变训练 #空间音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Binh Thien Nguyen（NTT, Inc.）通讯作者：未说明作者列表：Binh Thien Nguyen（NTT, Inc.）、Masahiro Yasuda（NTT, Inc.）、Daiki Takeuchi（NTT, Inc.）、Daisuke Niizumi（NTT, Inc.）、Noboru Harada（NTT, Inc.） 💡 毒舌点评这篇论文精准地解决了DCASE挑战赛简化假设带来的“皇帝的新衣”问题——当混音里有两个“说话人”时，原本优雅的基线系统就集体宕机。其提出的损失函数和评估指标就像一副专用的眼镜，让系统能看清并区分同名的声源，技术上无懈可击。但短板在于，它本质上是在为一条专为理想情况设计的道路打补丁，实验也局限在合成的“完美场景”中，对于真实世界里更混沌的同名声源（比如一群叽叽喳喳的鸟或远处重叠的警报）是否依然有效，论文并未给出答案。 🔗 开源详情代码：论文中未提及具体的代码仓库链接，但文中提到“源代码将作为DCASE 2026挑战赛基线系统和评估指标的一部分发布”。模型权重：未提及公开的预训练模型权重。数据集：合成数据，基于现有公开数据集（如FOA-MEIR、Veluri et al.的数据）。论文未提供独立的数据集下载链接。 Demo：未提及。复现材料：论文提供了详细的训练设置（优化器、学习率、批大小、训练轮数）、损失函数公式、评估指标定义以及数据合成方法的描述，为复现提供了较好的基础。论文中引用的开源项目：引用了SpatialScaper工具用于数据合成，以及M2D预训练模型。 📌 核心摘要问题：当前的DCASE 2025 Task 4 基线S5系统（如ResUNetK）假设混音中的每个声音类别标签只出现一次。然而，在真实场景中，同一类别（如多个说话人）的声源经常同时出现。这会导致标签查询源分离（LQSS）模型在训练时产生歧义，并且官方的评估指标（CA-SDRi）也无法正确处理这种情况。方法核心：作者提出了两项关键改进：a) 损失函数：引入“类别感知置换不变SDR（CA-PI-SDR）”损失，在训练LQSS模型时，对于相同类别的输出源，允许在置换不变的约束下寻找与参考源的最佳匹配，从而解决标签重复带来的对齐歧义。b) 评估指标：设计了“类别感知置换不变SDRi（CA-PI-SDRi）”指标，采用类似的置换不变原理，使其能公平地评估包含重复标签的混合场景的性能。与已有方法相比新在哪里：与基线系统使用的随机对齐同类声源的损失（LCA-SDR）相比，新损失函数通过最小化损失的置换选择来优化训练；与完全置换不变训练（LPI-SDR）相比，新方法利用了标签信息进行约束，性能更优。新指标是CA-SDRi的扩展，解决了其在重复标签情况下的模糊性。主要实验结果：音频标签模型：在4通道输入下，对含重复标签的数据集（DupSet）的源准确率为77.9%，混合准确率为55.4%；对无重复标签的数据集（NoDupSet）分别为79.4%和68.3%。分离模型损失对比：提出的LCA-PI-SDR损失函数在平均性能上优于LCA-SDR和LPI-SDR。LCA-SDR在DupSet上性能显著下降，LPI-SDR在NoDupSet上性能较差。端到端系统：CA-PI-SDRi指标能有效同时反映标签预测准确率（x轴）和分离性能（y轴），最佳系统位于图5的右上角。实际意义：为沉浸式通信和空间音频分割领域提供了一种能处理现实中常见同类别多声源场景的解决方案，使基线系统和评估框架更加完备和实用。主要局限性：性能仍严重依赖第一阶段音频标签预测的准确性，而该模型在识别相同类别声源时仍具挑战性。此外，所有实验均基于合成数据，未在真实录音上进行验证。 🏗️ 模型架构论文聚焦于对DCASE 2025 Task 4 基线S5系统的改进，整体架构是两阶段级联： ...

DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

📄 DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models #音频问答 #多任务学习 #音频大模型 #空间音频 #音频场景理解 🔥 8.0/10 | 前25% | #音频问答 | #多任务学习 | #音频大模型 #空间音频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kevin Wilkinghoff（奥尔堡大学电子系统系， Pioneer Centre for AI）通讯作者：论文中未明确标注通讯作者（基于作者列表，通常可认为两位作者共同负责）作者列表：Kevin Wilkinghoff（奥尔堡大学电子系统系， Pioneer Centre for AI）， Zheng-Hua Tan（奥尔堡大学电子系统系， Pioneer Centre for AI） 💡 毒舌点评亮点：用0.2%的额外参数实现了多任务性能的大幅提升，证明了解耦表示在空间音频任务中的巨大潜力。短板：训练和评估高度依赖SoundSpaces 2.0合成的仿真数据，其与真实世界声学环境的差距可能限制了结论的普适性。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/wilkinghoff/DSpAST/。模型权重：在提供的论文文本片段中，未明确提及是否公开发布训练好的模型权重文件。数据集：训练和评估使用的双耳音频数据集基于AudioSet和SoundSpaces 2.0合成，但论文未明确说明是否单独公开该合成数据集。SpatialSoundQA为公开数据集，但获取方式需参考原文。 Demo：论文中未提及提供在线演示。复现材料：提供了详细的训练课程（三阶段）、关键超参数（学习率、批次大小、损失权重）、模型参数量对比，以及特征注意力模块的具体公式，复现细节较为充分。论文中引用的开源项目：依赖了AudioMAE（用于初始化）、BAT系统（作为下游推理模型）、AudioSet数据集、SoundSpaces 2.0仿真平台。 📌 核心摘要问题：使用单一音频编码器（如SpatialAST）处理空间音频推理任务（声音事件检测SED、距离预测DP、方向估计DoAE）时，由于各任务所需信息（事件类型、距离、方向）大多相互独立，导致表征纠缠，单一任务的优化可能损害其他任务的性能。方法核心：提出DSpAST，一种基于SpatialAST的解耦空间音频编码器。主要创新包括：(a) 引入特征注意力模块，允许模型为每个任务动态选择最相关的音频特征（log-mel, IPD, ILD, GCC-PHAT）；(b) 设计任务特定分支，将信息流分离到SED、DP和DoAE三个独立分支中，每个分支包含自己的特征注意力模块、骨干网络和投影头。新意：在单一模型架构内实现了任务表征的解耦，而非使用多个独立编码器。通过共享骨干网络参数，以极低的参数开销（0.2%）解决了多任务表征冲突问题，并提供了可解释的注意力权重。主要实验结果：表1 (消融研究)：DSpAST（stage 3）在模拟双耳音频数据集上显著优于基线SpatialAST。具体数值如下：音频编码器 mAP (↑) ER20○(↓) MAE (↓) DER (↓) SpatialAST (官方检查点) 49.90 24.43 17.87 32.50 DSpAST (stage 3) 54.53 20.28 14.44 28.03 表2 (SpatialSoundQA任务)：使用DSpAST作为BAT系统的编码器，在SpatialSoundQA的所有问题类型上均优于使用SpatialAST。例如，在需要联合SED、DoAE和DP的类型D问题上，DSpAST（单阶段）的距离预测DER为47.89%，而SpatialAST（单阶段）为53.40%；在需要空间推理的类型E问题上，DSpAST（单阶段）的二元准确率为77.71%，高于SpatialAST（单阶段）的74.04%。实际意义：为构建更强大的空间音频推理系统提供了一个高效且性能更优的音频编码器前端，其解耦设计有助于理解和分析不同空间特征对各任务的重要性。主要局限性：性能仍不完美，依赖合成数据进行训练和评估，未来需在更多真实场景和更复杂声学条件下验证和改进。 🏗️ 模型架构 DSpAST的架构图（如图1所示）展示了从双耳音频输入到最终表示的完整流程。该架构是SpatialAST的扩展，主要增加了特征注意力模块和任务特定分支。 ...

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS

📄 From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS #音频场景理解 #跨模态 #多任务学习 #音频大模型 ✅ 7.5/10 | 前25% | #音频场景理解 | #多任务学习 | #跨模态 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuhang Jia（南开大学计算机学院TMCC）通讯作者：Shiwan Zhao（南开大学计算机学院TMCC，Email: zhaosw@gmail.com）作者列表：Yuhang Jia（南开大学计算机学院TMCC）、Xu Zhang（南开大学计算机学院TMCC）、Yujie Guo（南开大学计算机学院TMCC）、Yang Chen（南开大学计算机学院TMCC）、Shiwan Zhao（南开大学计算机学院TMCC） 💡 毒舌点评这篇论文用一个直觉上更“温和”、更符合预训练目标的共性描述任务，漂亮地“击败”了看似更具挑战性但可能“用力过猛”的差异描述任务，证明在多模态大模型微调中，“顺毛捋”有时比“找不同”更有效且稳健。不过，其共性描述的生成规则（尤其是替换操作）依赖于简单的字面重叠，可能在面对更复杂、语义更抽象的音频对时显得脆弱，这限制了该方法向更通用方向发展的潜力。 🔗 开源详情代码：论文中未提及代码链接。模型权��：未提及是否公开微调后的模型权重。数据集：论文中提及构建了148，500对训练数据，但未提供数据集下载链接或公开计划。 Demo：未提及。复现材料：论文给出了训练的关键超参数（LoRA参数、优化器设置、批次大小等），但未提供完整的训练配置文件、数据样本或更详细的生成脚本。论文中引用的开源项目： Qwen2-Audio：作为基座模型（https://huggingface.co/Qwen/Qwen2-Audio-7B）。 Audit：用于数据构造的参考框架。 ms-swift：用于实现LoRA微调的工具库。论文中未提及完整的开源计划。 📌 核心摘要这篇论文旨在解决多模态大语言模型（MLLM）在采用音频差异描述（ADC）任务进行微调时，因输出与预训练目标不匹配而导致的语义差距和灾难性遗忘问题。为此，作者提出了一种新的训练范式——音频共性描述（ACC），该任务引导模型学习并描述成对音频之间的共享语义，而非差异。与基于音频混合的数据构建方法（源自音频编辑任务）相结合，ACC提供了一个与标准音频描述（AC）更一致的训练目标。主要实验结果表明，在Qwen2-Audio模型上，ACC在AudioCaps和Clotho基准测试上的多个指标（如CIDEr-D， SPIDEr）均显著优于仅用AC或ADC微调的方法。同时，ACC在下游语音和音乐任务（如人声分类、情感识别、乐器分类）上表现出更强的通用能力保留，避免了ADC导致的性能下降。该工作的核心意义在于，提出了一个更鲁棒的音频文本跨模态对齐训练策略，平衡了任务专用性能与模型通用性。其主要局限性在于，用于构建共性描述的规则（如替换操作中提取最长连续重叠短语）可能过于简单，无法处理所有复杂的语义对齐情况，且实验评估主要集中在描述任务，对更细粒度的跨模态推理能力验证不足。 ...

ICASSP 2026 - 音频场景理解论文列表

ICASSP 2026 - 音频场景理解共 3 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Lightweight and Generalizable Acoustic Scene Representations 8.0分前25% 🥈 From Contrast to Commonality: Audio Commonality Captioning f 7.5分前25% 🥉 Class-Aware Permutation-Invariant Signal-to-Distortion Ratio 7.5分前25% 📋 论文详情 🥇 Lightweight and Generalizable Acoustic Scene Representations Via Contrastive Fine-Tuning and Distillation 🔥 8.0/10 | 前25% | #音频场景理解 | #对比学习 | #知识蒸馏 #少样本学习 👥 作者与机构第一作者：Kuang Yuan（卡内基梅隆大学，实习期间于Meta Reality Labs完成）通讯作者：未说明作者列表：Kuang Yuan（卡内基梅隆大学，Meta Reality Labs）、Yang Gao（Meta Reality Labs）、Xilin Li（Meta Reality Labs）、Xinhao Mei（Meta Reality Labs）、Syavosh Zadissa（Meta Reality Labs）、Tarun Pruthi（Meta Reality Labs）、Saeed Bagheri Sereshki（Meta Reality Labs） 💡 毒舌点评 ...

LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence

📄 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence #音频描述 #跨模态对齐 #大语言模型 #音频场景理解 ✅ 7.0/10 | 前25% | #音频描述 | #跨模态对齐 | #大语言模型 #音频场景理解学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Hyeongkeun Lee（韩国科学技术院， KAIST）通讯作者：未说明作者列表：Hyeongkeun Lee（韩国科学技术院， KAIST）， Jongmin Choi（韩国科学技术院， KAIST）， KiHyun Nam（韩国科学技术院， KAIST）， Joon Son Chung（韩国科学技术院， KAIST） 💡 毒舌点评这篇论文在技术上做得扎实，首次将柯西-散度引入音频-文本对齐并取得了SOTA，证明了其有效性。但整体框架更像是现有“音频编码器+LLM解码器”范式的一个精细化升级，而非颠覆性创新，且主要验证集中在AudioCaps一个数据集上，泛化性的说服力略显不足。 ...

Lightweight and Generalizable Acoustic Scene Representations Via Contrastive Fine-Tuning and Distillation

📄 Lightweight and Generalizable Acoustic Scene Representations Via Contrastive Fine-Tuning and Distillation #音频场景理解 #对比学习 #知识蒸馏 #少样本学习 #模型压缩 🔥 8.0/10 | 前25% | #音频场景理解 | #对比学习 | #知识蒸馏 #少样本学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kuang Yuan（卡内基梅隆大学，实习期间于Meta Reality Labs完成）通讯作者：未说明作者列表：Kuang Yuan（卡内基梅隆大学，Meta Reality Labs）、Yang Gao（Meta Reality Labs）、Xilin Li（Meta Reality Labs）、Xinhao Mei（Meta Reality Labs）、Syavosh Zadissa（Meta Reality Labs）、Tarun Pruthi（Meta Reality Labs）、Saeed Bagheri Sereshki（Meta Reality Labs） 💡 毒舌点评亮点：精准地抓住了传统声学场景分类（ASC）模型“类别固定、无法迁移”的痛点，并将对比学习与表征蒸馏巧妙结合，从理论（结构化嵌入空间）到实验（开放集少样本适应）都给出了令人信服的解决方案。短板：论文自称为“轻量级”，但最轻的CP-Mobile学生模型也有6K参数，而用于对比的教师模型BEATs本身并非轻量级模型，这使得“轻量级”的对比语境稍显模糊；另外，实验仅在一个主要数据集（TAU22）上进行全量训练和蒸馏，开放集评估虽跨了两个数据集，但规模有限，泛化性的论证还可以更强。 ...

Segmentwise Pruning in Audio-Language Models

📄 Segmentwise Pruning in Audio-Language Models #音频问答 #音频场景理解 #token剪枝 #音频大模型 #模型评估 ✅ 7.0/10 | 前50% | #音频问答 | #token剪枝 | #音频场景理解 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明（根据作者列表顺序推测为Marcel Gibier，但未明确标注）通讯作者：未说明作者列表：Marcel Gibier（Inria Paris），Pierre Serrano（Inria Paris），Olivier Boeffard（Inria Paris），Raphaël Duroselle（AMIAD），Jean-François Bonastre（AMIAD） 💡 毒舌点评亮点：方法设计巧妙且实用，通过简单的“分段再选Top-K”约束，显著缓解了标准Top-K可能导致的token时间聚集问题，在保持甚至提升性能的同时大幅降低计算开销，为ALM的推理加速提供了一个即插即用的轻量级方案。短板：方法本质是启发式规则，并未深入探究“为什么分段有效”背后的表征理论，例如分段大小如何与音频内容的时长、节奏特性相匹配。实验仅展示了推理加速，未涉及训练成本或对模型微调的潜在影响。 🔗 开源详情代码：论文中未提及代码链接。模型权重：使用了公开的预训练模型权重（Whisper-large-v3, Qwen2-Audio-7B-Instruct, Audio Flamingo 3），但未提及本次研究产生的新模型权重。数据集：使用了公开的标准基准数据集（Clotho v2, AudioCaps, ClothoAQA, MMAU）。 Demo：论文中未提及在线演示。复现材料：论文详细描述了实验设置（模型版本、音频处理参数、解码方式、关键超参数S=10），这为复现提供了良好基础。但未提供具体的脚本、配置文件或结果检查点。论文中引用的开源项目：Whisper-large-v3 (语音识别模型), Qwen2-Audio (音频语言模型), Audio Flamingo 3 (音频语言模型), Sentence-BERT (句子嵌入模型), VisionZip (视觉token剪枝方法)。 📌 核心摘要要解决什么问题：音频-语言模型（ALMs）通常将长序列的音频编码与文本嵌入拼接后送入Transformer，导致注意力机制的计算复杂度随序列长度平方增长，造成巨大的计算开销，限制了模型在长音频任务中的效率。方法核心是什么：提出一种名为“分段Top-K（Segmentwise Top-K）”的轻量级推理时token剪枝方法。该方法将音频编码器的输出序列划分为S个时间片段，在每个片段内独立选择注意力得分最高的若干token，从而保证剪枝后的token在时间维度上分布均匀。与已有方法相比新在哪里：不同于仅依赖注意力分数的全局Top-K（可能导致选中的token在时间上聚集）或基于相似度的合并方法（如VisionZip），本文方法显式地利用了音频信号的时序结构，通过分段约束在剪枝时促进了token的时间多样性，能更好地覆盖音频全程信息。主要实验结果如何：在Audio Flamingo 3和Qwen2-Audio-7B两个模型上进行的实验表明，仅保留25%的音频token，模型在音频描述（CIDEr）和音频问答（准确率）等任务上的性能下降通常小于2%（相对最大下降）。例如，在Audio Flamingo 3上保留25% token时，在ClothoAQA和MMAU-total上甚至比原始模型性能略高。同时，推理预填充阶段速度提升显著（从162.54ms降至29.55ms，提速约5.5倍）。实际意义是什么：该方法为部署和实时运行大型音频-语言模型提供了一种简单高效的优化途径，能大幅减少推理延迟和内存占用，而对核心任务性能影响极小，有助于推动ALM在边缘设备或低延迟场景的应用。主要局限性是什么：分段数量S=10是启发式选择，对不同长度或特性的音频可能非最优；方法仅在推理时应用，未探索与训练结合是否能带来更大收益；未深入分析剪枝后丢失的信息类型以及对极长或复杂音频的鲁棒性。 🏗️ 模型架构本文主要评估的是现有的音频-语言模型（Qwen2-Audio-7B-Instruct和Audio Flamingo 3），并提出应用于这些模型的剪枝方法。其架构（以所研究的模型为依据）如下： ...

Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation #音频大模型 #知识蒸馏 #音频问答 #音频场景理解 ✅ 7.0/10 | 前25% | #音频问答 | #知识蒸馏 | #音频大模型 #音频场景理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Runyan Yang、Yuke Si、Yingying Gao（三人并列第一作者，论文中标注† Equal contribution）通讯作者：Shilei Zhang（论文中标注* Corresponding author）作者列表：Runyan Yang（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Yuke Si（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Yingying Gao（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Junlan Feng（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Chao Deng（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Shilei Zhang（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室） 💡 毒舌点评该论文提出的“源维度”与“层维度”双轨蒸馏框架，在理论上为跨模态推理能力的迁移提供了一个清晰且有一定新意的视角，特别是将声学教师作为冻结快照来保持音频能力的做法有巧思。然而，实验规模和范围严重受限，仅在Qwen系列模型的师生配置下进行了验证，缺乏跨架构、跨数据规模的普适性证明，其“统一框架”的宣称说服力因此大打折扣。 ...

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频场景理解 #音频问答 #强化学习 #数据集 #基准测试 🔥 8.0/10 | 前25% | #音频场景理解 | #强化学习 | #音频问答 #数据集 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mingchen Shao (西北工业大学，Xi’an, China) 通讯作者：未说明（论文未明确指定通讯作者）作者列表： Mingchen Shao (西北工业大学) Hang Su (独立研究者，北京) Wenjie Tian (西北工业大学) Bingshen Mu (西北工业大学) Zhennan Lin (西北工业大学) Lichun Fan (独立研究者，北京) Zhenbo Luo (独立研究者，北京) Jian Luan (独立研究者，北京) Lei Xie (西北工业大学) 💡 毒舌点评亮点：这篇论文非常“全套”，从数据集、评测基准到训练框架一气呵成，直面长音频时间感知的核心痛点（时间幻觉与漂移），并用全局到局部推理范式+TWA-CoT的“工具使用”方案给出了一个结构清晰、实验充分的解决方案。短板：其提出的TWA-CoT依赖多轮工具调用，论文自身也承认这会增加计算开销，牺牲了实时性，这在一定程度上限制了其在流式或资源受限场景下的实用价值。 ...