音频问答 | 语音/音乐/音频论文速递

Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time

📄 Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time #音频问答 #音频分类 #音频大模型 #推理时调整 ✅ 7.5/10 | 前25% | #音频问答 | #推理时调整 | #音频分类 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hangyu Du（新加坡国立大学，设计与工程学院）通讯作者：Jingxing Zhong（福州大学，明智国际工程学院）作者列表：Hangyu Du（新加坡国立大学，设计与工程学院），Jingxing Zhong（福州大学，明智国际工程学院）（论文注明两位作者贡献相等）。 💡 毒舌点评亮点：精准地诊断出ALLMs解码时“听着听着就忘了音频”的顽疾，并用一个免训练、近乎零开销的“解码时注意力微调”插件（AttnAdapter）显著缓解了这个问题，效果立竿见影，实用性很强。短板：方法更像是对症下药的“经验性工程”，虽然能“work”，但对于注意力漂移的根本原因（为何系统令牌会成为sink？为何音频注意力会衰减？）缺乏更深层次的理论或神经机制层面的剖析，略显“知其然而不知其所以然”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：实验使用公开的MMAU-mini和AIR-Bench数据集，但论文中未提及数据集获取方式或自有数据。 Demo：未提及。复现材料：提供了Algorithm 1伪代码和完整的超参数设置，足以复现核心方法。但缺乏具体代码实现和运行脚本。引用的开源项目：论文未提及直接依赖的开源项目代码。 📌 核心摘要要解决什么问题：本文发现并研究了音频大语言模型（ALLMs）在自回归解码过程中普遍存在的“注意力路由退化”现象。随着解码进行，模型对音频输入（Audio Tokens）的注意力会系统性衰减，转而过度依赖语言先验和早期生成的“汇聚”令牌，导致回答偏离输入音频，产生幻觉。方法核心是什么：提出AttnAdapter，一个训练无关、可插拔的模块。它在解码的每一步，对注意力计算中的原始对数几率（logits）进行分段、时间感知的乘性重缩放。具体包含三个组件：(1) 系统令牌汇聚抑制，(2) 音频关键点时序增强，(3) 局部输出窗口稳定。与已有方法相比新在哪里：与现有方法（如EAH、MemVR）相比，AttnAdapter的特点是：完全在解码时操作，无需训练或修改模型架构；设计上明确针对音频模态的序列性、密集性特点，提出时间感知的增强策略；并且组合了多种干预（抑制、增强、稳定）以协同工作。主要实验结果如何：在MMAU-mini和AIR-Bench两个基准上，AttnAdapter为LLaMa-Omni、Qwen-Omni和Audio Flamingo 3三个模型带来了稳定的性能提升。在LLaMa-Omni上，MMAU-mini平均准确率从0.71提升至0.85（+14%），AIR-Bench平均准确率从0.69提升至0.82（+13%）。在Qwen-Omni上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.71提升至0.84（+13%）。在Audio Flamingo 3上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.70提升至0.83（+13%）。所有方法中，AttnAdapter均取得了最高的分数，尤其在“混合音频”子任务上改进明显。实际意义是什么：提供了一个即插即用、计算开销极低（延迟增加<2%）的解决方案，可以增强现有ALLMs的音频接地能力，使其在长序列对话和推理中能持续“听”音频，减少基于文本先验的幻觉，提升在音频问答、分析等实际应用中的可靠性和准确性。主要局限性是什么：(1) 方法的有效性依赖于经验调优的超参数（σ, η, g, w, β），对于新模型或任务可能需要重新搜索。(2) 论文主要关注准确率提升，对模型生成文本的流畅性、连贯性等质量指标的详细分析不足。(3) 机制解释偏经验性，缺乏对ALLMs内部信息流动的深层理论分析。 🏗️ 模型架构本文提出的AttnAdapter并非一个完整的端到端模型，而是一个推理时的插件模块，旨在修改现有基于解码器的音频大语言模型（ALLMs）在解码阶段的注意力计算过程。 ...

Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding

📄 Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding #多模态模型 #音频问答 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #音频问答 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianze Xia†， Hongcheng Liu† （上海交通大学）通讯作者：Yu Wang* （上海交通大学）作者列表：Tianze Xia†（上海交通大学）， Hongcheng Liu†（上海交通大学）， Lina Yang（上海交通大学）， Yu Wang*（上海交通大学） 💡 毒舌点评这篇论文的亮点在于清晰地识别出语言先验在“输入层”和“层间”的两个不同作用机制，并设计了一个优雅、即插即用的统一解码公式来同时抑制它们，在多个视觉和音频基准上取得了稳健提升。短板在于其核心论证“动态层选择”策略的理论基础和普适性略显薄弱（为何选择最大差异度层作为先验代表？），且缺少对失败案例的深入分析，使得方法更像一个“work well”的工程方案而非深刻揭示机制。 🔗 开源详情代码：论文中未提及代码链��。模型权重：未提及。数据集：使用了公开基准（POPE， MSCOCO 2014， MMAU， MMAR），但论文未提及BCD方法本身是否附带新的数据集。 Demo：未提及。复现材料：论文详细给出了BCD的算法流程（公式1-3）和关键超参数（k, n, α, β），但未提供完整的配置文件或训练/评估日志。论文中引用的开源项目：实验基于以下开源模型：LLaVA-1.5-7B， Qwen2.5-VL-7B， Qwen2-Audio-7B-Instruct， MU-LLaMA-7B。论文中未提及开源计划。 📌 核心摘要要解决什么问题：多模态大语言模型（MLLM）在生成时严重依赖语言先验（文本提示和模型内部的统计规律），导致输出与视觉/音频证据不符的幻觉现象。方法核心是什么：提出双层对比解码（BCD），一种无需训练的即插即用解码策略。它在每个解码步骤同时进行两项修正：a) 输入层修正：对比完整多模态输入和纯文本输入的输出分布，以强化多模态证据的引导；b) 层间修正：对比模型最终层输出和通过动态策略选择的中间层输出，以抑制信息在层间传播中累积的语言先验。与已有方法相比新在哪里：现有对比解码方法（如VCD， SID）通常只关注单一来源的先验（如图像扰动或内部状态），而BCD首次将输入层和层间这两个关键阶段的先验抑制统一到一个框架内，并通过动态层选择策略自适应地定位内部先验的最强表征层。主要实验结果如何：BCD在多个主流模型（LLaVA-1.5， Qwen2.5-VL， Qwen2-Audio， MU-LLaMA）和基准上均提升了性能。具体地，在POPE（视觉幻觉）基准上，LLaVA-1.5模型的平均准确率从83.01%提升至87.32%；在MMAR（音频理解）基准上，Qwen2-Audio模型的平均准确率从30.00%提升至36.90%。消融实验证实了两个修正组件的互补性。模型基准设置基线 Greedy (Acc./F1) BCD (Acc./F1) LLaVA-1.5 POPE Rand. 87.17 / 85.64 90.57 / 90.33 LLaVA-1.5 POPE Pop. 82.76 / 83.36 87.83 / 87.87 LLaVA-1.5 POPE Adv. 79.11 / 80.92 83.57 / 84.28 Qwen2.5-VL POPE Adv. 84.20 / 81.63 86.27 / 84.67 实际意义是什么：提供了一种实用、有效、无需额外训练的解码改进方案，可直接应用于现有MLLM，增强其输出的可靠性和可信度，对部署在医疗、安防等关键领域的多模态AI系统具有重要价值。主要局限性是什么：a) 方法引入了额外的推理计算开销（需要运行前向传播以获取L_text和L_inter）；b) 动态层选择策略的有效性可能依赖于模型结构，其普适性有待更多验证；c) 超参数α和β需要针对不同任务/模态进行调整，缺乏自动化的选择机制。 🏗️ 模型架构本文提出的BCD并非一个新的多模态模型架构，而是一种应用于现有MLLM（如LLaVA， Qwen-VL/Audio）的解码策略。其核心架构是统一的对比解码框架，流程如下： ...

Segmentwise Pruning in Audio-Language Models

📄 Segmentwise Pruning in Audio-Language Models #音频问答 #音频场景理解 #token剪枝 #音频大模型 #模型评估 ✅ 7.0/10 | 前50% | #音频问答 | #token剪枝 | #音频场景理解 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明（根据作者列表顺序推测为Marcel Gibier，但未明确标注）通讯作者：未说明作者列表：Marcel Gibier（Inria Paris），Pierre Serrano（Inria Paris），Olivier Boeffard（Inria Paris），Raphaël Duroselle（AMIAD），Jean-François Bonastre（AMIAD） 💡 毒舌点评亮点：方法设计巧妙且实用，通过简单的“分段再选Top-K”约束，显著缓解了标准Top-K可能导致的token时间聚集问题，在保持甚至提升性能的同时大幅降低计算开销，为ALM的推理加速提供了一个即插即用的轻量级方案。短板：方法本质是启发式规则，并未深入探究“为什么分段有效”背后的表征理论，例如分段大小如何与音频内容的时长、节奏特性相匹配。实验仅展示了推理加速，未涉及训练成本或对模型微调的潜在影响。 🔗 开源详情代码：论文中未提及代码链接。模型权重：使用了公开的预训练模型权重（Whisper-large-v3, Qwen2-Audio-7B-Instruct, Audio Flamingo 3），但未提及本次研究产生的新模型权重。数据集：使用了公开的标准基准数据集（Clotho v2, AudioCaps, ClothoAQA, MMAU）。 Demo：论文中未提及在线演示。复现材料：论文详细描述了实验设置（模型版本、音频处理参数、解码方式、关键超参数S=10），这为复现提供了良好基础。但未提供具体的脚本、配置文件或结果检查点。论文中引用的开源项目：Whisper-large-v3 (语音识别模型), Qwen2-Audio (音频语言模型), Audio Flamingo 3 (音频语言模型), Sentence-BERT (句子嵌入模型), VisionZip (视觉token剪枝方法)。 📌 核心摘要要解决什么问题：音频-语言模型（ALMs）通常将长序列的音频编码与文本嵌入拼接后送入Transformer，导致注意力机制的计算复杂度随序列长度平方增长，造成巨大的计算开销，限制了模型在长音频任务中的效率。方法核心是什么：提出一种名为“分段Top-K（Segmentwise Top-K）”的轻量级推理时token剪枝方法。该方法将音频编码器的输出序列划分为S个时间片段，在每个片段内独立选择注意力得分最高的若干token，从而保证剪枝后的token在时间维度上分布均匀。与已有方法相比新在哪里：不同于仅依赖注意力分数的全局Top-K（可能导致选中的token在时间上聚集）或基于相似度的合并方法（如VisionZip），本文方法显式地利用了音频信号的时序结构，通过分段约束在剪枝时促进了token的时间多样性，能更好地覆盖音频全程信息。主要实验结果如何：在Audio Flamingo 3和Qwen2-Audio-7B两个模型上进行的实验表明，仅保留25%的音频token，模型在音频描述（CIDEr）和音频问答（准确率）等任务上的性能下降通常小于2%（相对最大下降）。例如，在Audio Flamingo 3上保留25% token时，在ClothoAQA和MMAU-total上甚至比原始模型性能略高。同时，推理预填充阶段速度提升显著（从162.54ms降至29.55ms，提速约5.5倍）。实际意义是什么：该方法为部署和实时运行大型音频-语言模型提供了一种简单高效的优化途径，能大幅减少推理延迟和内存占用，而对核心任务性能影响极小，有助于推动ALM在边缘设备或低延迟场景的应用。主要局限性是什么：分段数量S=10是启发式选择，对不同长度或特性的音频可能非最优；方法仅在推理时应用，未探索与训练结合是否能带来更大收益；未深入分析剪枝后丢失的信息类型以及对极长或复杂音频的鲁棒性。 🏗️ 模型架构本文主要评估的是现有的音频-语言模型（Qwen2-Audio-7B-Instruct和Audio Flamingo 3），并提出应用于这些模型的剪枝方法。其架构（以所研究的模型为依据）如下： ...

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

📄 SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models #音频问答 #知识蒸馏 #多模态模型 #迁移学习 #音视频 ✅ 7.5/10 | 前25% | #音频问答 | #知识蒸馏 | #多模态模型 #迁移学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文中作者列表排序未明确指定第一作者）通讯作者：未说明作者列表：Qiaolin Wang（Columbia University, New York, NY, USA）、Xilin Jiang（Columbia University, New York, NY, USA）、Linyang He（Columbia University, New York, NY, USA）、Junkai Wu（University of Washington, Seattle, WA, USA）、Nima Mesgarani（Columbia University, New York, NY, USA） 💡 毒舌点评亮点在于巧妙地利用“视觉可听”的假设，将强大的视觉语言模型（LVLM）作为“免费的”教师来生成音频推理数据，从而绕过了音频链式思考（CoT）数据稀缺的瓶颈，思路清晰且实用。短板则是这一核心假设存在天然局限，导致生成的推理链可能基于视觉臆测而非真实音频内容（论文中也承认了语音、音乐任务性能下降），且方法的最终效果高度依赖外部强大LVLM和验证模型的能力，并非完全独立。 ...

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

📄 TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics #音频问答 #基准测试 #数据集 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #模型评估学术质量 0.85/7 | 选题价值 0.75/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yi-Cheng Lin (National Taiwan University) 通讯作者：论文中未明确指定通讯作者作者列表：Yi-Cheng Lin¹, Yu-Hua Chen², Jia-Kai Dong¹, Yueh-Hsuan Huang¹, Szu-Chi Chen¹, Yu-Chen Chen¹, Chih-Yao Chen¹, Yu-Jung Lin¹, Yu-Ling Chen¹, Zih-Yu Chen¹, I-Ning Tsai¹, Hsiu-Hsuan Wang¹, Ho-Lam Chung¹, Ke-Han Lu¹, Hung-yi Lee¹ (¹National Taiwan University, ²University of Toronto) 💡 毒舌点评该论文的亮点在于它敏锐地指出了当前音频-语言模型评估体系中一个被忽视的“文化盲区”，并为此提供了一个设计精巧、收集过程透明的高质量本地化基准，为推动更公平的多模态评估铺了路。短板则在于，它本质上是一个评估工具（Benchmark），而非解决该问题的算法或模型，因此其影响力高度依赖于后续研究社区的采纳程度，且论文本身未对“如何提升模型的文化理解能力”给出更深入的方案探索。 ...

Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation #音频大模型 #知识蒸馏 #音频问答 #音频场景理解 ✅ 7.0/10 | 前25% | #音频问答 | #知识蒸馏 | #音频大模型 #音频场景理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Runyan Yang、Yuke Si、Yingying Gao（三人并列第一作者，论文中标注† Equal contribution）通讯作者：Shilei Zhang（论文中标注* Corresponding author）作者列表：Runyan Yang（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Yuke Si（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Yingying Gao（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Junlan Feng（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Chao Deng（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Shilei Zhang（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室） 💡 毒舌点评该论文提出的“源维度”与“层维度”双轨蒸馏框架，在理论上为跨模态推理能力的迁移提供了一个清晰且有一定新意的视角，特别是将声学教师作为冻结快照来保持音频能力的做法有巧思。然而，实验规模和范围严重受限，仅在Qwen系列模型的师生配置下进行了验证，缺乏跨架构、跨数据规模的普适性证明，其“统一框架”的宣称说服力因此大打折扣。 ...

Test-Time Scaling for Auditory Cognition in Audio Language Models

📄 Test-Time Scaling for Auditory Cognition in Audio Language Models #音频问答 #测试时扩展 #音频大模型 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #测试时扩展 | #音频大模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ting Dang (墨尔本大学，澳大利亚) 通讯作者：未说明作者列表：Ting Dang（墨尔本大学，澳大利亚）、Yan Gao（剑桥大学，英国）、Hong Jia（奥克兰大学，新西兰；墨尔本大学，澳大利亚） 💡 毒舌点评这篇论文首次系统性地探索了测试时扩展（TTS）策略在音频语言模型（ALM）听觉认知任务上的应用，填补了一个明显的空白。然而，其自建数据集仅包含10名参与者，样本规模偏小，这使得论文声称的“揭示ALM的局限性”和“TTS显著提升性能”的结论在泛化性上略显薄弱。 🔗 开源详情代码：论文中提到“Code will be made publicly available upon acceptance.”（代码将在论文接收后公开），但未提供具体代码仓库链接。模型权重：论文中评估的开源模型（Qwen2-Audio， Audio-Flamingo 2）是公开的，但本文未提及发布新的模型权重。闭源模型（GPT-4o， Gemini系列）为API调用。数据集：本文构建的听觉认知评估数据集未提及公开或获取方式。 Demo：未提及。复现材料：论文给出了TTS策略的文字描述和图表，但未提供完整的训练/评估配置文件、超参数列表或复现脚本。论文中引用的开源项目：论文引用了QwenLM、Flamingo等模型架构作为开源模型的基础。 📌 核心摘要问题：现有的音频语言模型（ALM）在训练数据和基本能力上关注语音转录与感知，但在应对真实世界复杂听觉认知场景（如鸡尾酒会问题）时，其推理能力和适应性不足。方法核心：本文的核心在于评估ALM的认知能力并探索提升其推理能力的方法。作者设计了三个难度递增的听觉认知任务（自然声识别、单说话人数字序列、双说话人重叠数字序列），收集了相应的人类回答数据集。随后，系统评估了五款主流ALM在无额外处理下的表现，并首次尝试应用五种源自文本大模型的测试时扩展（TTS）策略（包括Chain-of-Thought提示、自一致性解码、束搜索加权、LLM验证器打分等）来增强模型的推理能力。创新点：相较于已有工作，本文的创新在于：(1) 首次针对ALM设计并评估了听觉认知任务；(2) 首次将多种TTS策略迁移到ALM的音频推理任务中，证明了其有效性；(3) 揭示了当前ALM在复杂听觉场景下的显著不足，并指出了提升方向。主要实验结果：所有测试的ALM（包括开源和闭源）在听觉认知任务上的表现均低于人类。其中GPT-4o表现最佳，在某些复杂场景甚至超越人类。引入TTS策略后，性能获得显著提升（相对提升幅度从9%到150%不等）。具体结果见表2。实际意义：该研究为提升ALM在复杂、真实听觉环境中的理解和推理能力提供了新思路，验证了TTS作为一种无需额外训练即可增强模型推理能力的方法在多模态领域的潜力。主要局限性：研究构建的数据集规模较小（10名参与者，180条音频事件），可能限制结论的普遍性；实验仅在有限的五个模型和三种任务上进行；缺乏为音频任务专门设计的奖励模型，验证器方案（使用GPT-4o）较为通用。表2：使用TTS的准确率对比（括号内为相对百分比提升） ...

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #多模态模型 #自监督学习 #数据集 #音频问答 ✅ 7.5/10 | 前25% | #音乐理解 | #多模态模型 | #自监督学习 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xiquan Li（LTCI, Télécom Paris, Institut Polytechnique de Paris；上海交通大学）通讯作者：未说明（论文未明确标注通讯作者）作者列表：Xiquan Li（LTCI, Télécom Paris, Institut Polytechnique de Paris；上海交通大学），Aurian Quelennec（LTCI, Télécom Paris, Institut Polytechnique de Paris），Slim Essid（LTCI, Télécom Paris, Institut Polytechnique de Paris；NVIDIA） 💡 毒舌点评本文最大的亮点在于系统性地探索了如何“经济高效”地训练音乐语言模型，不仅提供了229M参数的紧凑模型，还贡献了配套的高质量数据集MusicSkills-3.5M，并通过大量消融研究（编码器、微调策略、数据构成）给出了清晰的设计指南。但短板同样明显：论文将主要精力用于证明“以小博大”在性能数字上的可行性，却缺乏对真实边缘设备部署的推理速度、功耗等实际约束的验证，使得“Compact”一词的实践意义打了折扣；此外，实验部分主要对标通用的音频-语言大模型，在与传统音乐信息检索（MIR）基线方法的深入对比上有所欠缺，削弱了其在专业音乐领域的说服力。 ...

Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models

📄 Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models #音频大模型 #音频问答 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频问答 | #模型评估 | #音频大模型 #基准测试 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chun-Yi Kuan (台湾大学电信工程研究所) 通讯作者：Hung-yi Lee (台湾大学电信工程研究所, 台湾大学人工智能卓越研究中心 (AI-CoRE)) 作者列表：Chun-Yi Kuan (台湾大学电信工程研究所), Wei-Ping Huang (台湾大学电信工程研究所), Hung-yi Lee (台湾大学电信工程研究所, 台湾大学人工智能卓越研究中心) 💡 毒舌点评本文作为首篇系统评估音频大模型不确定性估计的研究，实验设计严谨、结论清晰，填补了重要空白；但其核心创新是将文本大模型领域的成熟方法“搬运”到新领域进行比较，方法论上的突破有限，更像是一个扎实的“开山评测”。 ...

All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

📄 All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation #模型评估 #音频问答 #音频大模型 #大语言模型 #多模态模型 ✅ 6.5/10 | 前50% | #音频问答 | #模型评估 | #音频大模型 #大语言模型 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Leonardo Haw-Yang Foo（未说明具体单位，但论文地址为National Taiwan University）通讯作者：未说明（论文未明确指定通讯作者，通常由第一作者或末位作者负责，此处未明确）作者列表： Leonardo Haw-Yang Foo (National Taiwan University, NTU AI-CoRE) Chih-Kai Yang (National Taiwan University, NTU AI-CoRE) Chen-An Li (未说明) Ke-Han Lu (未说明) Hung-yi Lee (National Taiwan University, NTU AI-CoRE) 💡 毒舌点评亮点：论文像一位敏锐的审计师，用“无音频输入”和“音频分段测试”两把尺子，清晰量出了当前音频-语言模型在“裸考”（无音频）时依然能得高分（60-72%），且需要整段音频才能答对的题目极少（仅3-4%），这记耳光打醒了盲目乐观的“分数崇拜”。短板：诊断出了病症，但开的“处方”（第5章的建议）却非常笼统，缺乏可直接执行的“新基准”或“新评估工具”，更像是向学界发出的一份呼吁而非解决方案。 ...