音频大模型

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音对话系统 #模型评估 #语音情感识别 #音频大模型 ✅ 7.0/10 | 前25% | #基准测试 | #模型评估 | #语音对话系统 #语音情感识别学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Li Zhou（香港中文大学（深圳））通讯作者：Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院），Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）作者列表：Li Zhou（香港中文大学（深圳））、Lutong Yu（香港中文大学（深圳））、You Lyu（香港中文大学（深圳））、Yihang Lin（香港中文大学（深圳））、Zefeng Zhao（香港中文大学（深圳））、Junyi Ao（香港中文大学（深圳））、Yuhao Zhang（香港中文大学（深圳））、Benyou Wang（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院）、Haizhou Li（香港中文大学（深圳）、深圳大数据研究院、深圳湾区研究院） 💡 毒舌点评这篇论文系统性地构建了首个面向语音大模型共情能力的多层级评估基准，设计框架清晰（理解-推理-对话），并通过控制变量的脚本设计（语义中性+语音风格变化）巧妙隔离了文本与声学信息的贡献，实验全面（覆盖12个主流模型）。然而，作为一项纯评估工作，其核心贡献在于“发现差距”而非“提供解决方案”，且基准本身的构建依赖于现成的语音合成工具（如Doubao TTS、GPT-4o）和人工标注，通用性和抗偏倚能力有待更广泛的验证。 🔗 开源详情代码：论文中提及项目网站 https://hlt-cuhksz.github.io/EchoMind/，并承诺将提供代码，但未给出具体代码仓库链接。模型权重：不适用。本论文是评估基准，不提出新模型。数据集：论文明确表示将公开所有构建的数据（音频文件、元数据、标注协议）。获取方式预计通过上述项目网站。 Demo：论文中未提及在线演示。复现材料：论文承诺提供复现所需的数据、代码和实验配置。附录（A-C）详细描述了数据集构建、任务设计、评估指标、实验设置（提示模板、人工评估流程）等细节，为复现提供了充分信息。论文中引用的开源项目：主要依赖以下开源工具/模型进行评估：Audio Flamingo 3 (Goel et al., 2025), DeSTA2.5-Audio (Lu et al., 2025), VITA-Audio (Long et al., 2025), LLaMA-Omni2 (Fang et al., 2025), Baichuan-Omni-1.5 (Li et al., 2025), GLM-4-voice (Zeng et al., 2024), OpenS2S (Wang et al., 2025c), Qwen2.5-Omni-7B (Xu et al., 2025), Kimi-Audio (KimiTeam et al., 2025), Step-Audio (Huang et al., 2025b), EchoX (Zhang et al., 2025), GPT-4o-Audio (OpenAI, 2024)。以及用于评估的指标模型：Qwen3-Embedding-0.6B, emotion2vec, Gemini-2.5-Pro。 📌 核心摘要要解决的问题：现有的语音大模型（SLM）基准测试往往孤立地评估语言理解、声学识别或对话能力，缺乏对模型整合非词汇声学线索（如韵律、情绪、生理信号）以实现共情对话能力的系统性评估。方法核心：提出了EchoMind基准，这是一个模拟人类共情对话认知过程的层次化评估框架，包含三个相互关联的任务层级：（1）内容与语音理解；（2）整合推理；（3）共情对话生成。所有任务共享语义中性、无情感线索的对话脚本，并通过控制不同的语音风格（目标、替代、中性）来隔离语音表达本身的影响。与已有方法相比新在哪里：EchoMind是首个专注于评估SLM共情能力、且任务间具有关联性的多层级基准。其创新点在于：(a) 构建了覆盖3大维度、12个细分类别、39种声学属性的共情导向评估框架；(b) 设计了从感知到推理再到生成的递进式任务链，并确保任务共享上下文以支持跨层级相关性分析；(c) 引入了针对对话生成响应的多维度（文本和音频）评估指标。主要实验结果：对12个先进SLM的测试表明，即使是SOTA模型（如GPT-4o-Audio）也难以在生成响应中有效利用高表现力的声学线索。例如，在依赖声学线索的文本评估维度“语音信息相关性”（CSpeechRel）上，没有任何模型的平均分超过4分（满分5分）。音频层面的“声乐共情得分”（VES）也普遍较低。模型在“语音风格检测”和“背景声音检测”等理解任务，以及“先行事件推断”和“共情响应选择”等推理任务上表现尤其薄弱。实际意义：该基准为评估和推动SLM向具备真正情感智能的对话系统发展提供了标准化工具，揭示了当前模型在指令遵循、对自然语音变体的鲁棒性以及有效利用声学线索方面的普遍短板，指明了未来研究方向。主要局限性：a) 基准构建高度依赖TTS合成语音，虽然提供了人工录制子集进行对比，但合成语音的自然度和表现力可能存在上限；b) 评估主要依赖自动化指标（包括用大模型评分），虽然进行了人工评估验证，但主观评估成本高，难以大规模进行；c) 作为评估工作，其本身并不提出解决模型共情能力不足的新方法。 🏗️ 模型架构本文提出的EchoMind并非一个AI模型，而是一个评估基准框架。其核心是设计一个模拟人类共情对话认知过程的评估流水线。 ...

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理学术质量 8.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院) 通讯作者：未说明作者列表：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校)，Roger Ren (Amazon)，Jingyuan Li (Amazon)，Rahul Pandey (Amazon)，Prashanth Gurunath Shivakumar (Amazon)，Ivan Bulyko (Amazon)，Ankur Gandhe (Amazon)，Ge Liu (伊利诺伊大学厄巴纳-香槟分校)，Yile Gu (Amazon) 💡 毒舌点评亮点在于系统性地诊断并解决了音频LLM推理的“测试时逆缩放”这一实际且重要的“反直觉”现象，并建立了一套从过程奖励到可扩展能力的完整方法论。短板是其基于GRPO的在线强化学习训练计算成本高昂（需要8块H200训练61小时），且多奖励组件的超参数调节（如α权重）虽经实验验证，但给实际复现增加了一定复杂度。 ...

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #音频大模型 #对抗样本 #鲁棒性 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zifan Peng (香港科技大学（广州），State Key Laboratory of Internet Architecture，清华大学) 通讯作者：Wenhan Dong (未说明具体单位，但标注为*Corresponding authors)，Xinlei He (香港科技大学（广州），State Key Laboratory of Internet Architecture，清华大学) 作者列表：Zifan Peng (香港科技大学（广州），清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学（广州）)、Zhen Sun (香港科技大学（广州）)、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学（广州）)、Jingyi Zheng (香港科技大学（广州）)、Wenhan Dong (香港科技大学（广州）)、Xinlei He (香港科技大学（广州），清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学（广州）)、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评亮点：论文的系统性和工程完备性令人印象深刻，它不仅仅是一个数据集，更是一个集成了多种攻击、防御方法和分析工具的标准化评测平台，为尚处蓝海的音频大模型安全研究立下了第一个重要的坐标。短板：防御策略的探索相对浅尝辄止，仅仅是将视觉语言模型的方法简单适配，未能提出真正针对音频模态（如声学特征扰动）的、更有效的防御机制，使得“提出防御”这一目标打了折扣。 ...

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频问答 #音频大模型 #强化学习 #数据集 #后训练 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolin He（香港中文大学、蚂蚁集团）通讯作者：Jian Liu（蚂蚁集团）， Qiuqiang Kong（香港中文大学）作者列表：Haolin He（香港中文大学、蚂蚁集团）， Xingjian Du（罗切斯特大学）， Renhe Sun（蚂蚁集团）， Zheqi Dai（香港中文大学）， Yujia Xiao（香港中文大学）， Mingru Yang（蚂蚁集团）， Jiayi Zhou（蚂蚁集团）， Xiquan Li（上海交通大学）， Zhengxi Liu（香港中文大学）， Zining Liang（香港中文大学）， Chunyat Wu（香港中文大学）， Qianhua He（华南理工大学）， Tan Lee（香港中文大学）， Xie Chen（上海交通大学）， Wei-Long Zheng（上海交通大学）， Weiqiang Wang（蚂蚁集团）， Mark D Plumbley（伦敦国王学院）， Jian Liu（蚂蚁集团）， Qiuqiang Kong（香港中文大学） 💡 毒舌点评亮点：论文敏锐地捕捉并量化了“音频语言模型不听音频”这一核心问题，提出的“音频贡献”度量与过滤方法逻辑自洽，且基于此设计的Weak-to-Strong和Mixed-to-Strong训练范式确实有效，在多个基准上取得了扎实的SOTA结果。短板：整个框架高度依赖Qwen2.5-Omni作为基座模型验证，其结论在不同架构（如纯编码器-解码器模型）上的泛化性未可知；且“音频贡献”的定义（用静音替换音频）过于粗暴，无法区分解码器是“忽略”了音频还是“错误处理”了音频。 ...

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #音频大模型 #预训练 #强化学习 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #音频大模型 | #预训练 #强化学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Sreyan Ghosh (University of Maryland, College Park & NVIDIA), Arushi Goel (NVIDIA) (论文注明二者同等贡献) 通讯作者：sreyang@umd.edu, arushig@nvidia.com 作者列表：Sreyan Ghosh (University of Maryland, College Park & NVIDIA)、Arushi Goel (NVIDIA)、Lasha Koroshinadze (University of Maryland, College Park)、Sang-gil Lee (NVIDIA)、Zhifeng Kong (NVIDIA)、Joao Felipe Santos (NVIDIA)、Ramani Duraiswami (University of Maryland, College Park)、Dinesh Manocha (University of Maryland, College Park)、Wei Ping (NVIDIA)、Mohammad Shoeybi (NVIDIA)、Bryan Catanzaro (NVIDIA) 💡 毒舌点评论文的最大亮点是构建了一个覆盖多层次、多文化、带推理链的音乐理解数据集（MF-Skills & MF-Think），并通过GRPO强化学习有效提升了模型的“音乐家式”分析能力，使其输出从“列标签”升级到了“写乐评”。短板在于，尽管数据集声称覆盖多元文化，但模型在对非西方音乐（如印度拉格、非洲节奏）的深层理论分析上仍可能受限于训练数据的偏见，且对复杂乐器特定技法的识别能力有待验证。 ...

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #音频大模型 #空间音频 #声源定位 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：未说明（论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者）通讯作者：未说明作者列表：Subrata Biswas（Worcester Polytechnic Institute电气与计算机工程系）、Mohammad Nur Hossain Khan（Worcester Polytechnic Institute电气与计算机工程系）、Bashima Islam（Worcester Polytechnic Institute电气与计算机工程系） 💡 毒舌点评这篇论文为音频大模型装上了“空间几何眼睛”，通过“模拟训练-纯音频推理”的巧思和详实的课程学习，确实把空间定位和推理精度提升了一个台阶；但美中不足的是，其所有辉煌战绩（包括新建的百万级数据集）均建立在精心构建的合成世界里，在真实嘈杂、反射复杂的声学环境中，这套“几何内功”的实战效果还有待“出关”检验。 🔗 开源详情代码：论文明确提供代码仓库链接：https://github.com/BASHLab/OWL。表明将在该仓库发布代码。模型权重：未明确提及是否公开预训练模型权重，但根据“our dataset and code are available”的表述，模型权重可能包含在开源计划内。数据集：论文明确表示将发布BiDepth数据集（“we construct and release BiDepth”），包含约110万QA对。 Demo：未提及在线演示。复现材料：附录提供了完整的训练超参数（表10，表11）、特征提取公式（B.1）、模型架构细节（B.2， B.3）和数据集生成细节（A节），复现指引非常充分。论文中引用的开源项目：依赖SoundSpaces v2.0和Matterport3D进行模拟；音频编码器初始化自AudioMAE；语言模型使用LLaMA-2-7B；投影模块参考Q-Former；微调使用LoRA。 📌 核心摘要要解决什么问题：现有的音频大语言模型（ALLMs）在空间推理方面能力薄弱，主要依赖粗糙的双耳线索和单步推理，导致在声源方向（DoA）和距离估计上精度不足，且推理过程缺乏可解释性。方法核心是什么：提出OWL框架，其核心是创新的几何感知音频编码器SAGE。SAGE在训练时利用全景深度图和模拟房间脉冲响应（RIR）作为监督信号，让编码器学会将声学特征与3D空间几何结构对齐，但在推理时只需音频输入。OWL进一步将SAGE与空间接地的链式思维（CoT）推理相结合，支持从感知到多步推理的课程学习。与已有方法相比新在哪里：首次将显式的几何监督（通过RIR预测任务）引入音频编码器训练；构建了首个大规模（约110万QA对）耦合双耳音频、RIR和深度图的数据集BiDepth用于几何感知训练；引入了针对音频空间推理的多阶段课程学习和CoT监督机制，使模型能生成可解释的推理路径。主要实验结果如何：在BiDepth和SpatialSoundQA两个基准上，OWL显著超越了现有方法。SAGE相比SOTA（Spatial-AST），在BiDepth数据集上平均角度误差（MAE）降低25.52%，距离错误率（DER）降低31.34%。OWL相比BAT，在BiDepth上的空间推理二分类准确率（BA）提升24.9%（77.89% vs. 69.46%），在SpatialSoundQA上的推理平均准确率达79.06%（BAT为76.89%）。OWL在真实世界音频场景分类和声源定位任务上也展现出良好的泛化能力。实际意义是什么：该工作推动了音频大模型从“听到什么”向“声音在哪里、如何关联”的空间理解迈进，为构建更接近人类听觉感知的智能系统（如机器人、智能家居助手、助听设备）提供了关键技术组件和评估基准。主要局限性是什么：训练和评估严重依赖合成数据（BiDepth），而真实世界声学环境更为复杂多变，模型的鲁棒性有待验证；目前的推理任务限于单轮问答，尚未扩展到多轮对话式空间推理；几何监督依赖于预先生成的深度图和RIR，限制了其在完全未知环境中的应用。 🏗️ 模型架构 OWL是一个完整的空间音频问答系统，其架构（如图4所示）由三个主要部分串联而成，旨在将原始双耳波形转化为带有空间推理的文本输出。 ...

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频编辑 #音频大模型 #扩散模型 #空间音频 🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）通讯作者：未明确说明（论文未指定通讯作者）作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学WAVES实验室）、Mingmin Zhao（宾夕法尼亚大学WAVES实验室） 💡 毒舌点评亮点：本文最大的亮点在于提出了“声明式”音频编辑的范式，并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它，同时配套构建了首个可扩展的声明式音频编辑数据集合成管道，形成了一个完整的技术闭环。短板：实验完全依赖于合成数据集，虽然合成过程逼真，但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战，其泛化能力在论文中未得到真实场景验证。 🔗 开源详情代码：论文中未提及代码仓库链接。但承诺在论文接受后发布代码。模型权重：未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。数据集：论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。 Demo：未提及提供在线演示。复现材料：提供了极其详细的实现细节，包括模型架构（层数、维度、参数量）、训练配置（学习率、批大小、优化器、训练步数/轮数）、数据合成流程（提示词模板、声学模拟参数），以及消融实验设置。附录非常完整。论文中引用的开源项目：CLAP（用于音频编码）、FLAN-T5（用于文本编码）、Stable-Audio-Open（作为部分基线）、PyRoomAcoustics（用于声学模拟）、AudioSep（作为对比模型）、GPT-4o（用于数据合成）。 📌 核心摘要要解决什么问题：现有音频编辑模型依赖于模板化指令（如“添加鸟鸣”），需要用户指定具体操作，无法理解用户高级的、声明式的意图（如“让这个声音听起来像在阳光明媚的森林里”）。同时，现有系统普遍局限于单声道音频，无法编辑空间信息。方法核心是什么：提出SmartDJ框架。它包含两个核心组件：(1) 音频语言模型（ALM）作为规划器，接收原始音频和用户的高级声明式指令，输出一个原子编辑步骤序列（如“移除雨声”、“在左边添加鸟鸣”）；(2) 潜在扩散模型（LDM）作为编辑器，按照ALM规划的步骤顺序，逐步执行编辑操作，最终生成目标立体声音频。与已有方法相比新在哪里：首次实现了“声明式”音频编辑范式，将用户意图理解与音频信号操作分离。首次将音频语言模型的推理能力系统性地引入音频编辑流程。首次构建了支持立体声、包含声明式指令-原子操作-音频轨迹的配对数据集生成管道。首次系统评估了编辑操作对空间音频特性的影响。主要实验结果如何：在声明式编辑任务和多种单步原子操作上，SmartDJ在各项客观指标（FD, FAD, LSD等）和主观用户偏好率上均显著优于端到端训练的Audit模型以及多种零样本基线（SDEdit, ZETA等）。例如，在声明式编辑任务中，SmartDJ的FAD得分为1.52，远优于最佳基线Audit的5.67；用户研究显示，在音频质量和与指令的对齐度上，SmartDJ的胜率在80%-95.5%之间（详见表1）。框架方法训练速度 FD↓ FAD↓ KL↓ LSD↓ CLAP↑ 无ALM Audit 是 2.07s 28.56 10.00 3.07 1.93 0.11 有ALM SDEdit 否 301s (74.6s) 19.66 3.71 3.25 2.22 0.17 Audit 是 11.6s (2.07s) 21.50 5.67 2.80 1.49 0.18 SmartDJ (ours) 是 13.1s (2.40s) 10.60 1.52 2.84 1.40 0.21 实际意义是什么：该工作为下一代智能、直观的音频编辑工具铺平了道路，有望革新VR/AR、游戏、影视制作等领域的音频后处理工作流，提升创作效率和沉浸感。主要局限性是什么：整个框架的训练和评估完全依赖于合成数据集，其在真实、复杂、非结构化声场中的性能未被验证。ALM生成步骤的推理时间（约4.8秒）和多步编辑的累积时间（13.1秒）相比端到端方法仍有优化空间。框架对新增编辑操作类型的扩展需要重新训练。 🏗️ 模型架构 SmartDJ的框架由两个独立训练的核心模块组成：音频语言模型（ALM）规划器和潜在扩散模型（LDM）编辑器。其整体数据流与交互如图1和图2所示。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者：Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表：Zihan Liu（北京航空航天大学，上海人工智能实验室），Zhikang Niu（上海交通大学，上海创新研究院），Qiuyang Xiao（上海交通大学），Zhisheng Zheng（上海交通大学），Ruoqi Yuan（北京航空航天大学），Yuhang Zang（上海人工智能实验室），Yuhang Cao（上海人工智能实验室），Xiaoyi Dong（上海人工智能实验室，香港中文大学），Jianze Liang（上海人工智能实验室），Xie Chen（上海交通大学，上海创新研究院），Leilei Sun（北京航空航天大学），Dahua Lin（香港中文大学，上海人工智能实验室），Jiaqi Wang（上海人工智能实验室，上海创新研究院） 💡 毒舌点评本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题，证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”，从音高、响度等基础感知到时空推理，层层深入，确实能测出模型的真实短板。不过，论文本身止步于“诊断医生”，并未给出“治疗方案”，其核心价值依赖于未来模型能否利用这个基准取得进步，稍显被动。 📌 核心摘要本文指出，现有的音频基准测试主要评估可通过文本描述传达的语义内容，无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此，论文提出了“音频4D智能”的概念，即结合时间（1D）和三维空间（3D）进行深度推理的能力。作者构建了STAR-Bench基准，包含两个层级：基础声学感知（对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估）和整体时空推理（包括连续过程与离散事件序列的时间推理，以及静态定位、多源关系和动态轨迹跟踪的空间推理）。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型（16个开源，3个闭源）的评测中，STAR-Bench展现出巨大挑战性，人类表现远高于所有模型。研究发现：闭源模型（如Gemini 2.5 Pro）在知识和推理上领先，但细粒度感知仍是其瓶颈；开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如，在仅使用音频文本描述答题时，MMAU和MMAR基准的准确率仅下降5.9%和9.0%，而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%，证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究，为未来模型改进指明了方向，如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #自回归模型 #激活干预 #音频大模型 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Daniel Zhao（University of California, San Diego）通讯作者：未说明（从作者列表和邮箱格式推断，第一作者Daniel Zhao可能是主要联系人，但未明确标注）作者列表：Daniel Zhao（University of California, San Diego）、Daniel Beaglehole（University of California, San Diego）、Taylor Berg-Kirkpatrick（University of California, San Diego）、Julian McAuley（University of California, San Diego）、Zachary Novack（University of California, San Diego） 💡 毒舌点评这篇论文的亮点在于它成功地将RFM这一“老”概念嫁接到了音乐生成这个热门但控制困难的任务上，并通过精巧的层/时间调度设计实现了相当不错的控制效果，免去了训练或微调基础模型的巨大开销。不过，其控制能力严重依赖于在高度理想化的合成音乐数据集（SYNTHEORY）上训练的探针，当面对真实世界复杂多变的音乐纹理时，这些探针发现的“方向”是否依然稳健有效，论文并未给出足够有说服力的证据。 ...

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #自回归模型 #歌唱语音合成 #多模态模型 #音频大模型 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #歌唱语音合成 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：未说明（论文列出了大量作者，但未明确区分第一作者）通讯作者：未说明（论文提供了多位联系人邮箱，但未明确指定通讯作者）作者列表：Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xeron Du, Zhen Ye, Tianyu Zheng, Zhengxuan Jiang, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi LI, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, XiangzhouWang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo（主要隶属机构为：Multimodal Art Projection (MAP), 香港科技大学 (HKUST)；部分作者同时隶属Moonshot.ai, 上海交通大学 (SJTU), 清华大学, CMU, Queen Mary University of London等）。 💡 毒舌点评亮点：作为首个在质量上能与Suno、Udio等商业巨头掰手腕的开源歌词到歌曲生成模型，YuE的诞生本身就是对音乐AI民主化的巨大贡献，其系统性技术方案（双轨预测、结构化条件、音乐ICL重设计）为后续研究提供了清晰的蓝图。短板：尽管在“音乐性”和“人声敏捷度”上表现亮眼，但在音质保真度（VocalQual, AccompQual）上与顶级闭源系统仍有可感知的差距，这指向了其语义-声学融合编解码器的根本性局限；此外，对于训练数据版权合规性的说明仍显笼统，这在生成式AI伦理日益受关注的当下是一个隐患。 ...