音频大模型

Test-Time Scaling for Auditory Cognition in Audio Language Models

📄 Test-Time Scaling for Auditory Cognition in Audio Language Models #音频问答 #测试时扩展 #音频大模型 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #测试时扩展 | #音频大模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ting Dang (墨尔本大学，澳大利亚) 通讯作者：未说明作者列表：Ting Dang（墨尔本大学，澳大利亚）、Yan Gao（剑桥大学，英国）、Hong Jia（奥克兰大学，新西兰；墨尔本大学，澳大利亚） 💡 毒舌点评这篇论文首次系统性地探索了测试时扩展（TTS）策略在音频语言模型（ALM）听觉认知任务上的应用，填补了一个明显的空白。然而，其自建数据集仅包含10名参与者，样本规模偏小，这使得论文声称的“揭示ALM的局限性”和“TTS显著提升性能”的结论在泛化性上略显薄弱。 🔗 开源详情代码：论文中提到“Code will be made publicly available upon acceptance.”（代码将在论文接收后公开），但未提供具体代码仓库链接。模型权重：论文中评估的开源模型（Qwen2-Audio， Audio-Flamingo 2）是公开的，但本文未提及发布新的模型权重。闭源模型（GPT-4o， Gemini系列）为API调用。数据集：本文构建的听觉认知评估数据集未提及公开或获取方式。 Demo：未提及。复现材料：论文给出了TTS策略的文字描述和图表，但未提供完整的训练/评估配置文件、超参数列表或复现脚本。论文中引用的开源项目：论文引用了QwenLM、Flamingo等模型架构作为开源模型的基础。 📌 核心摘要问题：现有的音频语言模型（ALM）在训练数据和基本能力上关注语音转录与感知，但在应对真实世界复杂听觉认知场景（如鸡尾酒会问题）时，其推理能力和适应性不足。方法核心：本文的核心在于评估ALM的认知能力并探索提升其推理能力的方法。作者设计了三个难度递增的听觉认知任务（自然声识别、单说话人数字序列、双说话人重叠数字序列），收集了相应的人类回答数据集。随后，系统评估了五款主流ALM在无额外处理下的表现，并首次尝试应用五种源自文本大模型的测试时扩展（TTS）策略（包括Chain-of-Thought提示、自一致性解码、束搜索加权、LLM验证器打分等）来增强模型的推理能力。创新点：相较于已有工作，本文的创新在于：(1) 首次针对ALM设计并评估了听觉认知任务；(2) 首次将多种TTS策略迁移到ALM的音频推理任务中，证明了其有效性；(3) 揭示了当前ALM在复杂听觉场景下的显著不足，并指出了提升方向。主要实验结果：所有测试的ALM（包括开源和闭源）在听觉认知任务上的表现均低于人类。其中GPT-4o表现最佳，在某些复杂场景甚至超越人类。引入TTS策略后，性能获得显著提升（相对提升幅度从9%到150%不等）。具体结果见表2。实际意义：该研究为提升ALM在复杂、真实听觉环境中的理解和推理能力提供了新思路，验证了TTS作为一种无需额外训练即可增强模型推理能力的方法在多模态领域的潜力。主要局限性：研究构建的数据集规模较小（10名参与者，180条音频事件），可能限制结论的普遍性；实验仅在有限的五个模型和三种任务上进行；缺乏为音频任务专门设计的奖励模型，验证器方案（使用GPT-4o）较为通用。表2：使用TTS的准确率对比（括号内为相对百分比提升） ...

The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs

📄 The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs #音乐理解 #基准测试 #音频大模型 #模型评估 🔥 8.5/10 | 前25% | #音乐理解 | #基准测试 | #音频大模型 #模型评估学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Brandon James Carone（纽约大学心理学系，音乐与音频研究实验室）通讯作者：未说明作者列表：Brandon James Carone（纽约大学心理学系，音乐与音频研究实验室）、Iran R. Roman（伦敦玛丽女王大学电子电气工程与计算机科学学院，多模态AI中心）、Pablo Ripollés（纽约大学心理学系，音乐与音频研究实验室） 💡 毒舌点评亮点在于它像一把精准的手术刀，切开了当前音频大模型“音乐理解”的华丽外衣，暴露出它们在真正的音乐关系推理（如转调、节拍感知）面前脆弱不堪的内核。短板则是论文止步于“诊断”而未开出“药方”——它证明了现有范式和提示技巧的局限，但对于如何从根本上构建具备音乐不变性表示的模型，讨论略显不足。 🔗 开源详情代码：提供了论文中提到的GitHub仓库链接（github.com/brandoncarone/MUSE_music_benchmark），用于评估脚本和任务描述。模型权重：论文中未提及提供新模型权重，评估的是现有公开模型（Gemini, Qwen, Audio Flamingo 3）。数据集： 200段音乐刺激已公开，提供了Airtable链接。人类被试实验数据已公开，提供了OSF存储库链接，并设置了只读访问权限。 Demo：论文中未提及在线演示。复现材料：提供了刺激制作工具和参数（Logic Pro X，具体设备型号和插件）、完整的评估方法（提示策略、few-shot示例、系统指令的摘要在表A中）以及人类实验的详细流程。论文中引用的开源项目：评估的模型均为外部开源或公开API项目（Gemini 2.5, Qwen2.5-Omni, Audio Flamingo 3）。使用了PsychoPy进行人类实验。 📌 核心摘要解决的问题：现有针对音频大语言模型的评测多集中于表层分类任务，无法有效评估其对音乐深层结构（如音高不变性、调性层级、节奏分组）的感知和关系推理能力。方法核心：构建了名为“MUSE”的音乐理解与结构评估基准，包含10项任务，分为“初级”（基础感知与不变性）和“高级”（需要音乐理论知识的推理）两个层级，并系统性地评估了四个SOTA模型（Gemini Pro/Flash, Qwen2.5-Omni, Audio Flamingo 3）在“独立”和“思维链（CoT）”提示下的表现，同时与200名人类被试进行对比。新在哪里：与现有基准不同，MUSE的任务设计深深植根于音乐认知科学，旨在探测模型是否真正理解了音乐的“结构”而非仅仅“标签”。它首次对多个前沿模型在关系推理任务上进行了系统性的、与人类对标的横向比较。主要实验结果：模型表现方差极大，且普遍存在严重缺陷。例如，在旋律形状识别任务中，Qwen2.5-Omni的准确率仅为23.33%，低于25%的随机水平（见表2）。最强模型Gemini Pro在初级任务上接近人类专家（如怪音检测100%），但在高级推理任务（如节拍识别46.67%）上远低于人类专家（73.30%）。CoT提示策略效果不稳定，常带来性能下降。实际意义：MUSE为评估和推动具备真正音乐理解能力的AI系统提供了一个关键的诊断工具和基准。它明确指出，提升模型能力可能需要从架构和训练范式上突破，而不仅仅是缩放规模或优化提示。主要局限性：基准测试本身无法指明解决路径。论文揭示了差距，但对于如何设计能学习音乐不变表示的模型，提出的建设性方案有限。此外，人类“专家”样本量较小（N=6），可能影响对比的统计效力。 🏗️ 模型架构本文并非提出一个新的模型架构，而是对现有音频大语言模型进行系统性评测的框架论文。因此，其核心“架构”是评测系统本身。评测流程如下： ...

Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models

📄 Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models #音频大模型 #音频问答 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频问答 | #模型评估 | #音频大模型 #基准测试 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chun-Yi Kuan (台湾大学电信工程研究所) 通讯作者：Hung-yi Lee (台湾大学电信工程研究所, 台湾大学人工智能卓越研究中心 (AI-CoRE)) 作者列表：Chun-Yi Kuan (台湾大学电信工程研究所), Wei-Ping Huang (台湾大学电信工程研究所), Hung-yi Lee (台湾大学电信工程研究所, 台湾大学人工智能卓越研究中心) 💡 毒舌点评本文作为首篇系统评估音频大模型不确定性估计的研究，实验设计严谨、结论清晰，填补了重要空白；但其核心创新是将文本大模型领域的成熟方法“搬运”到新领域进行比较，方法论上的突破有限，更像是一个扎实的“开山评测”。 ...

When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models

📄 When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models #音乐生成 #模型评估 #自回归模型 #音频大模型 #对抗样本 ✅ 7.0/10 | 前25% | #音乐生成 | #模型评估 | #自回归模型 #音频大模型学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xiaosha Li (Georgia Institute of Technology) 通讯作者：未说明（根据惯例，最后一位作者Ziyu Wang可能为通讯作者，但论文中未明确标注）作者列表：Xiaosha Li (Georgia Institute of Technology), Chun Liu (ByteDance Inc.), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)) 💡 毒舌点评亮点在于发现了一个反直觉但可重复验证的现象（“噪声降低损失”），并据此提出了一个新颖的、基于损失曲线形状的评估视角，而非简单否定损失指标，这为音乐生成评估提供了具体的诊断工具和改进方向。短板在于，论文的核心论证主要基于“噪声注入”和“顺序打乱”两种人工扰动，其与真实音乐质量（如乐感、结构、情感表达）的关联性仍需更多元、更贴近实际场景的验证，且提出的“基于曲线形状”的评估框架目前更多是定性描述，缺乏可直接应用的定量标准。 ...

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

📄 When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models #模型评估 #鲁棒性 #音频大模型 #跨模态 #基准测试 ✅ 7.0/10 | 前50% | #模型评估 | #鲁棒性 | #音频大模型 #跨模态学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chen-An Li（台湾大学，National Taiwan University, Taipei, Taiwan）通讯作者：Hung-yi Lee（台湾大学，National Taiwan University, Taipei, Taiwan）[注：根据学术惯例，论文末尾作者排序通常通讯作者靠后，且Hung-yi Lee为知名教授，推断其为通讯作者。] 作者列表：Chen-An Li（台湾大学）、Tzu-Han Lin（台湾大学）、Hung-yi Lee（台湾大学） 💡 毒舌点评这篇论文像一位严谨的“系统质检员”，它系统性地量化并证实了多模态模型在“心不在焉”（处理无关音频）时确实会“分心”，甚至发现“安静”本身也是一种干扰——这是一个反直觉且重要的发现。然而，它提供的“解决方案”（自我一致性）更像是一个以资源换性能的笨办法，未能指向更优雅、高效的模型架构层面改进，略显乏力。 🔗 开源详情代码：是。论文明确提供了代码仓库链接：https://github.com/lca0503/AudioInterference。模��权重：论文中未提及提供新训练的模型权重。实验使用的是已公开发布的模型（Qwen2.5-Omni， Phi-4-Multimodal， Voxtral， DeSTA2.5-Audio）。数据集：论文中未提及提供新数据集。实验使用的文本基准（GSM8K， ARC-Challenge， MMLU）和音频干扰源（FSD50K）均为公开数据集。 Demo：论文中未提及提供在线演示。复现材料：论文中未提供训练细节（因未训练模型）。提供了评估所用的代码和依赖的推理工具（vLLM， Transformers），但音频干扰文件（如特定振幅的高斯噪声、静音片段）的具体生成方式未详细说明，需复现者参照文中描述自行生成。论文中引用的开源项目：列出了vLLM [33] 和 Transformers [34] 作为推理工具。总结：论文提供了基本的代码复现支持，但未涉及模型训练，因此复现材料集中于评估部分。论文中未提及开源计划（因相关代码已开源）。 📌 核心摘要要解决什么问题：研究大型音频语言模型在执行纯文本推理任务时，其性能是否会受到输入中不相关音频（如静音、噪声、环境声）的干扰，即跨模态干扰的鲁棒性问题。方法核心是什么：通过系统性的控制变量实验，在三个标准文本推理基准（GSM8K， ARC-Challenge， MMLU）上，评估多个开源LALMs在不同干扰条件下的准确率和预测稳定性（提出“影响率”指标）。与已有方法相比新在哪里：不同于以往关注音频与文本冲突或对抗攻击的研究，本文聚焦于更普遍但未被充分研究的“无关音频干扰”场景。核心新发现包括：(1) 即使无语义信息的静音也会显著干扰模型输出；(2) 干扰严重程度与音频时长、振幅和解码温度正相关；(3) 模型大小和架构影响抗干扰能力。主要实验结果如何：无关音频普遍降低模型准确率（绝对下降幅度温和，但普遍存在）并显著提高“影响率”（预测改变的比例）。干扰随音频时长增加、噪声振幅增大而加剧。在30秒静音或噪声下，影响率可达0.15-0.25。解码温度升高会急剧放大干扰效应，模型输出变得不稳定。提示（Prompting）缓解效果有限且不稳定；自我一致性（Self-Consistency，生成8次取众数）能有效降低影响率（如从0.10以上降至0.05左右）并提升准确率，但计算成本增加。更大模型（如24B参数）通常比小模型更鲁棒，但无一模型完全免疫。干扰程度在不同任务上有差异，MMLU（多领域知识）比GSM8K（数学）受影响更大。 (关键数据见图2，图3，图4及表1，表2) 实际意义是什么：揭示了LALMs在真实部署场景中的一个关键脆弱性：即使音频流中仅包含静音或背景噪声，也可能损害文本推理性能。这对需要处理连续音频输入的实时多模态系统（如语音助手）的鲁棒性设计提出了警示。主要局限性是什么：(1) 研究仅发现问题，提出的缓解方法（自我一致性）效率不高；(2) 缺乏从模型架构或融合机制层面提出根本性解决方案；(3) 实验限于文本推理任务，未探索无关音频对其他多模态任务（如音频理解）的影响。 🏗️ 模型架构论文未提出新模型架构，而是评估现有多个模型。被评估的大型音频语言模型（LALMs）通常共享一个通用的多模态架构，如图1所示，主要包括三个组件： ...

When Voice Matters: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making

📄 When Voice Matters: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making #模型评估 #音频大模型 #语音合成 #基准测试 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #音频大模型 #语音合成学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhi Rui Tam（台湾大学，计算机科学与信息工程系）通讯作者：Yun-Nung Chen（台湾大学，计算机科学与信息工程系；IEEE会员）作者列表：Zhi Rui Tam（台湾大学，计算机科学与信息工程系）、Yun-Nung Chen（台湾大学，计算机科学与信息工程系） 💡 毒舌点评亮点：研究设计堪称“控制变量”的典范，用合成语音这把精准的手术刀，切开了音频LLM“听音诊病”时隐藏的严重偏见，尤其是那触目惊心的35%模态偏差，为AI医疗的敲响了警钟。短板：论文在情绪识别部分因模型“五感不全”（识别率极低）而草草收场，未能深究情绪偏见，让这个本该最细腻的维度分析流于表面，如同用一把钝刀去解剖，关键发现后继乏力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文评估的DeSTA2.5, Qwen2.5-Omni, Gemini, GPT-4o-mini均为外部模型。数据集：论文公开了其创建的MedVoiceBias数据集的详细统计信息（年龄、性别、情绪各子集的WER、长度、数量）。但未明确说明数据集本身的获取方式（是否以及如何公开）。 Demo：未提及。复现材料：提供了数据集的详细统计表格，但未提供训练细节、配置、检查点。未说明合成语音的具体参数配置。论文中引用的开源项目：Common Voice [15], Expresso [16], Sesame-1B [17], Whisper [18], MOSANet+ [19]。总结：论文中未明确提及开源计划（如GitHub仓库）。数据集本身具备公开价值，但获取渠道未说明。 📌 核心摘要要解决的问题：研究音频大语言模型（Audio LLM）在临床决策（如手术推荐）中，是否会受到患者语音特征（如年龄、性别、情绪）的影响，从而产生基于声音而非医学证据的偏见，进而可能加剧医疗不平等。方法核心：构建了受控实验框架。利用高质量TTS模型，将相同的临床文本病例转换为36种不同声音特征（年龄、性别、情绪）的语音，作为音频LLM的输入。将音频输入下的手术推荐率与纯文本输入基线进行对比，以量化语音特征带来的偏见。同时，测试了直接回答和思维链两种提示策略。与已有方法相比新在哪里：这是首个系统评估音频LLM在临床决策中存在语音偏见的研究。创新在于：a) 聚焦于音频模态引入的新偏见向量，而非传统的文本偏见；b) 创建了专用的、受控的评估数据集MedVoiceBias；c) 揭示了文本与音频模态间存在巨大决策差异（最高达35%），以及年龄偏见在思维链提示下依然顽固存在。主要实验结果：模态偏见严重：66.7%的模型在音频输入下的手术推荐率与文本基线存在统计学显著差异。例如，GPT-4o-mini的推荐率从文本的26.5%暴跌至音频的5.3%；DeSTA2.5则从53.9%跃升至88.8%。年龄偏见持续：在6个模型中，4个在直接回答模式下表现出显著的年龄差异（如Qwen2.5-3B对青年和老年患者的推荐率差达11.8%）。思维链提示非但未能消除，反而使5/6的模型出现显著年龄差异，表明推理过程可能激活了关于年龄的有害启发式。性别偏见可缓解：思维链提示完全消除了所有模型的性别差异，与年龄偏见形成鲜明对比。情绪影响难测：由于大多数模型情绪识别准确率极低（<17%），未能可靠检测情绪对决策的影响。仅在少数识别能力强的模型中观察到微弱差异。模型文本基线音频（直接回答）变化幅度 gpt-4o-mini 26.5% 5.3% -21.2pp (↓80%) gemini-2.0-flash 0.0% 0.6% +0.6pp gemini-2.5-flash 27.6% 31.8% +4.2pp Qwen2.5-Omni-3B 97.6% 75.3% -22.3pp Qwen2.5-Omni-7B 11.2% 20.6% +9.4pp DeSTA2.5 53.9% 88.8% +34.9pp 模型青年老年差异 Qwen2.5-Omni-3B 85.3% 73.5% -11.8pp gemini-2.5-flash 25.3% 17.9% -7.4pp DeSTA2.5 87.6% 90.1% +2.5pp 实际意义：研究发出了强烈警告：音频LLM在当前状态下，因其对副语言特征的敏感性，尚不具备安全部署于临床决策的能力。这要求开发者必须设计偏见感知的架构，并在部署前进行严格评估，以确保决策基于医学证据而非患者的声音。主要局限性：a) 情绪偏见分析因模型识别能力不足而不可靠；b) 评估仅限于手术推荐这一种决策类型；c) 使用合成语音可能与真实患者语音存在差距；d) 未提供缓解偏见的具体模型架构或训练方案。 🏗️ 模型架构本文并非提出新模型，而是对现有音频LLM进行偏见评估。因此，其“架构”指代的是评估框架（如图1所示）。该框架流程如下： ...

All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

📄 All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation #模型评估 #音频问答 #音频大模型 #大语言模型 #多模态模型 ✅ 6.5/10 | 前50% | #音频问答 | #模型评估 | #音频大模型 #大语言模型 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Leonardo Haw-Yang Foo（未说明具体单位，但论文地址为National Taiwan University）通讯作者：未说明（论文未明确指定通讯作者，通常由第一作者或末位作者负责，此处未明确）作者列表： Leonardo Haw-Yang Foo (National Taiwan University, NTU AI-CoRE) Chih-Kai Yang (National Taiwan University, NTU AI-CoRE) Chen-An Li (未说明) Ke-Han Lu (未说明) Hung-yi Lee (National Taiwan University, NTU AI-CoRE) 💡 毒舌点评亮点：论文像一位敏锐的审计师，用“无音频输入”和“音频分段测试”两把尺子，清晰量出了当前音频-语言模型在“裸考”（无音频）时依然能得高分（60-72%），且需要整段音频才能答对的题目极少（仅3-4%），这记耳光打醒了盲目乐观的“分数崇拜”。短板：诊断出了病症，但开的“处方”（第5章的建议）却非常笼统，缺乏可直接执行的“新基准”或“新评估工具”，更像是向学界发出的一份呼吁而非解决方案。 ...

HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models

📄 HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models #音频大模型 #多模态模型 #token剪枝 #模型效率 🔥 8.0/10 | 前25% | #音频大模型 | #token剪枝 | #多模态模型 #模型效率 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Peize He (EPIC Lab, 上海交通大学; DAIL Tech) 通讯作者：未明确指定（论文提到“Corresponding author”，但未指明具体姓名或邮箱）作者列表：Peize He¹², Yaodi Luo¹², Xiaoqian Liu¹³, Xuyang Liu¹⁴, Jiahang Deng¹, Yaosong Du², Li Bangyu², Xiyan Gui¹⁵, Yuxuan Chen¹, Linfeng Zhang¹ 机构列表：¹EPIC Lab, 上海交通大学; ²DAIL Tech; ³东北大学; ⁴四川大学; ⁵华中科技大学 💡 毒舌点评亮点：论文对音频大模型中注意力头行为的“语义-声学异质性”观察非常敏锐，并由此设计出优雅的、免训练的动态路由机制（HeadRouter），在激进剪枝下性能反超原始模型，这是极具启发性的发现。短板：实验高度依赖Qwen2.5-Omni系列和Phi-4-Multimodal，缺乏对其他主流架构（如Gemini Audio、GPT-4o）的验证；路由机制的校准依赖于少量样本，其泛化到全新音频任务类型的稳健性尚未充分论证。 ...

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Mingchen Shao（西北工业大学）通讯作者：Lei Xie（西北工业大学）作者列表：Mingchen Shao（西北工业大学）、Hang Su（独立研究者）、Wenjie Tian（西北工业大学）、Bingshen Mu（西北工业大学）、Zhennan Lin（西北工业大学）、Lichun Fan（独立研究者）、Zhenbo Luo（独立研究者，清华大学相关）、Jian Luan（独立研究者）、Lei Xie（西北工业大学） 💡 毒舌点评这篇论文的亮点在于其“庖丁解牛”式的系统设计：面对长音频时间感知这一老大难问题，没有硬磕模型本身，而是从数据、评测、推理范式三个层面给出了一套“组合拳”，尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而，其短板也很明显：框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战，且最终性能的天花板依然受限于所采用的骨干模型（Qwen3-Omni）的基础能力。 🔗 开源详情代码：论文承诺开源，并提供了GitHub仓库链接：https://github.com/alanshaoTT/LAT-Audio-Repo。模型权重：论文提及基于Qwen3-Omni-30B进行训练，但未明确说明最终模型权重是否开源。根据仓库名推测，模型权重可能也会开源。数据集：LAT-Chronicle数据集和LAT-Bench基准承诺开源，但未说明具体获取方式（如需申请或直接下载）。 Demo：论文中未提及提供在线演示。复现材料：论文提供了详细的三阶段训练策略、关键超参数（学习率、批大小、组大小）、奖励函数设计以及数据集的构成统计，复现材料较为充分。引用的开源项目/工具：骨干模型：Qwen3-Omni-30B-A3B-Instruct (Team, 2025c) 训练框架：Swift (Zhao et al., 2025) 对比模型/工具：Audio-Flamingo3 (Goel et al., 2025)、Gemini系列 (Team, 2025a)、Step-Audio-R1.1 (Tian et al., 2025)、Time-Audio (Wang et al., 2026) 评估指标：FENSE (Zhou et al., 2022; Dinkel et al., 2025) 原子标注中使用的模型：Gemini-2.5-Pro、LLM-ForceAligner (Mu et al., 2026) 强化学习算法：Group Relative Policy Optimization (Shao et al., 2024) 📌 核心摘要本文针对大型音频语言模型在长音频理解任务（尤其是需要精确时间感知的任务）中性能显著下降的问题，提出了一套综合解决方案。 ...

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

📄 Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs #音频安全 #数据增强 #音频大模型 #多模态模型 #对抗样本 🔥 评分：9.5/10 | arxiv 👥 作者与机构第一作者：Jaechul Roh（推断，因名字在前）通讯作者：Amir Houmansadr（推断，因名字在后且通常为资深作者）全部作者：Jaechul Roh, Amir Houmansadr 所属机构：University of Massachusetts Amherst, Department of Computer Science 💡 毒舌点评亮点：论文像一把精准的手术刀，首次剖开了音频大模型“良性微调”外表下的安全脆弱性，揭示了其与文本/视觉模态截然不同的、由编码器架构决定的“阿喀琉斯之踵”，研究问题抓得准，分析框架设计得妙。槽点：提出的防御方法（远距离过滤和系统提示）虽然有效但略显“直球”，缺乏对模型内部拒绝机制更深入的干预探索，算是给后续研究者留了口饭吃。 🔗 开源详情代码：论文明确提及在GitHub上发布了代码（“Report GitHub Issue”），用于复现邻近度过滤和实验。数据集：论文提及发布了用于实验的良性音频数据集和有害音频提示集（经过TTS转换）。模型权重：论文研究的是三个已公开的SOTA模型（AF3, Kimi-Audio, Qwen2.5-Omni），未发布其微调后的权重，以防止滥用。在线Demo：未提及。依赖的开源工具：使用了多个开源模型和工具，包括：Whisper系列编码器、Sentence-BERT、WavLM、LoRA微调框架、Edge-TTS、Google TTS (gTTS)等。 📌 核心摘要这篇论文首次系统研究了良性（无害）音频数据微调对音频大模型安全对齐的破坏作用。要解决的问题是：用户出于提升模型性能目的进行的常规微调，是否会无意中破坏模型的安全防护？方法上，作者提出了一个基于嵌入空间邻近度的过滤框架，从语义、声学及混合维度，选择性地用与有害内容在表示空间上相近的良性音频进行微调。主要发现是，即使微调数据完全良性，也能使越狱成功率（JSR）从个位数飙升至87.12%，且主导的脆弱性维度（语义或声学）取决于模型编码器的架构。实际意义在于揭示了Audio LLMs一个非对抗性、易被忽视的重大安全风险，并提出了两种无需修改架构的实用防御策略（训练时远距离过滤和推理时安全系统提示）。局限性在于研究限于英语单轮对话，未探索非语音音频任务或多语言场景。 🏗️ 模型架构论文本身并非提出新模型，而是分析三个现有的SOTA音频大模型在微调下的安全行为。因此，模型架构部分描述的是被分析的三个目标模型： Audio Flamingo 3 (AF3)：架构为 Whisper音频编码器 -> 2层MLP投影器 -> Qwen2.5-7B LLM骨干（28层）。其关键特点是MLP投影器会压缩音频特征，形成一个与文本对齐空间不同的表示区域。 Kimi-Audio 7B：采用双编码器设计，包含WhisperVQ编码器（通过矢量量化瓶颈，会丢弃部分声学细节）和Whisper-Large-V3编码器。音频信息通过这两个编码器处理后输入LLM。 Qwen2.5-Omni 7B：架构为Whisper-Large-V3编码器 -> 直通（pass-through）-> Qwen2.5-7B Thinker模块。其编码器输出几乎不加修改地传递给LLM，保留了更多的音频-文本对齐信息。数据流动与关键设计：在所有三个模型中，音频编码器在微调期间是冻结的，只有LLM骨干网络通过LoRA进行参数更新。这是与文本LLM微调的关键区别：在音频LLM中，安全对齐所依赖的表示（来自编码器）并未被微调直接修改，但下游LLM的决策边界却发生了偏移。 ...