SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding
📄 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding #音频理解 #音频事件检测 #音频大模型 #基准测试 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Luoyi Sun(浙江大学,上海人工智能实验室) 通讯作者:Weidi Xie(上海交通大学,上海人工智能实验室) 其他作者: Xiao Zhou(上海人工智能实验室,上海交通大学) Zeqian Li(上海人工智能实验室,上海交通大学) Ya Zhang(上海人工智能实验室,上海交通大学) Yanfeng Wang(上海人工智能实验室,上海交通大学) 💡 毒舌点评 亮点:这篇论文的“时间戳交错序列”设计堪称“暴力美学”,直接把时间戳文本硬塞进音频Token序列里,让大语言模型像读句子一样“读”出时间,思路简单粗暴但异常有效。槽点:合成数据管道虽然巧妙,但用VGGSound配“Walking Tours”背景音,总感觉像是在录音棚里模拟“菜市场”,离真正的复杂声学场景还有点距离;另外,模型对“狗叫”这种瞬态声音的定位精度(见失败案例),似乎还不如它对“男人说话”这种持续性声音的把握来得稳。 🔗 开源详情 代码:已开源。GitHub地址:https://loiesun.github.io/spotsound/ (指向项目主页,代码应托管于此)。 模型权重:已公开。在HuggingFace上发布,包括基于Qwen2-Audio和Audio Flamingo 3的两个变体(SpotSound-Q和SpotSound-A)。 数据集: SpotSound-Bench:已公开,包含300个音频-query-timestamp三元组,可通过项目主页获取。 训练数据:论文中提到的合成数据管道和混合数据集的具体发布情况未明确说明,但强调“Code, models and benchmark are released”。 在线Demo:论文中未提及在线Demo地址。 引用的开源项目:依赖于Qwen2-Audio、Audio Flamingo 3、Whisper、DeepSeek-v3、Qwen2等开源模型。 📌 核心摘要 本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单,导致在长音频中定位短暂事件(“大海捞针”)时表现不可靠。为此,作者提出了SpotSound框架,其核心创新在于:1)设计了时间戳交错序列,将绝对时间戳文本与音频特征交错输入LLM,提供显式的时间对齐信号;2)引入了抗幻觉训练目标,通过构建包含正负样本的判别式四元组,强制模型先判断事件是否存在,再进行定位,有效抑制了对不存在事件的幻觉定位。同时,论文构建了SpotSound-Bench基准,其中目标事件仅占音频总长的8.4%,模拟了真实的“稀疏事件定位”挑战。实验表明,SpotSound在多个时间定位基准上达到了最先进水平,并在标准的音频事件检测任务上保持了强泛化能力。 🏗️ 模型架构 SpotSound的整体架构是一个增强型的大音频语言模型,其核心流程分为数据预处理/序列构建和两阶段推理。 1. 输入与特征提取: 原始输入:一段音频 𝒜 和一个自然语言查询 ℚ。 音频编码:音频被重采样至16kHz,转换为128通道的梅尔频谱图。随后通过一个预训练的音频编码器(如Whisper-large-v3),该编码器包含一个步长为2的池化层,将时间分辨率压缩,每个输出时间步约对应原始音频40ms。输出为音频Token序列 𝐀𝑖。 2. 核心创新:时间戳交错序列构建 (Timestamp-Interleaved Sequence) ...