SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频编辑 #音频大模型 #扩散模型 #空间音频 🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zitong Lan(宾夕法尼亚大学WAVES实验室) 通讯作者:未明确说明(论文未指定通讯作者) 作者列表:Zitong Lan(宾夕法尼亚大学WAVES实验室)、Yiduo Hao(宾夕法尼亚大学WAVES实验室)、Mingmin Zhao(宾夕法尼亚大学WAVES实验室) 💡 毒舌点评 亮点:本文最大的亮点在于提出了“声明式”音频编辑的范式,并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它,同时配套构建了首个可扩展的声明式音频编辑数据集合成管道,形成了一个完整的技术闭环。 短板:实验完全依赖于合成数据集,虽然合成过程逼真,但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战,其泛化能力在论文中未得到真实场景验证。 🔗 开源详情 代码:论文中未提及代码仓库链接。但承诺在论文接受后发布代码。 模型权重:未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。 数据集:论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。 Demo:未提及提供在线演示。 复现材料:提供了极其详细的实现细节,包括模型架构(层数、维度、参数量)、训练配置(学习率、批大小、优化器、训练步数/轮数)、数据合成流程(提示词模板、声学模拟参数),以及消融实验设置。附录非常完整。 论文中引用的开源项目:CLAP(用于音频编码)、FLAN-T5(用于文本编码)、Stable-Audio-Open(作为部分基线)、PyRoomAcoustics(用于声学模拟)、AudioSep(作为对比模型)、GPT-4o(用于数据合成)。 📌 核心摘要 要解决什么问题:现有音频编辑模型依赖于模板化指令(如“添加鸟鸣”),需要用户指定具体操作,无法理解用户高级的、声明式的意图(如“让这个声音听起来像在阳光明媚的森林里”)。同时,现有系统普遍局限于单声道音频,无法编辑空间信息。 方法核心是什么:提出SmartDJ框架。它包含两个核心组件:(1) 音频语言模型(ALM)作为规划器,接收原始音频和用户的高级声明式指令,输出一个原子编辑步骤序列(如“移除雨声”、“在左边添加鸟鸣”);(2) 潜在扩散模型(LDM)作为编辑器,按照ALM规划的步骤顺序,逐步执行编辑操作,最终生成目标立体声音频。 与已有方法相比新在哪里:首次实现了“声明式”音频编辑范式,将用户意图理解与音频信号操作分离。首次将音频语言模型的推理能力系统性地引入音频编辑流程。首次构建了支持立体声、包含声明式指令-原子操作-音频轨迹的配对数据集生成管道。首次系统评估了编辑操作对空间音频特性的影响。 主要实验结果如何:在声明式编辑任务和多种单步原子操作上,SmartDJ在各项客观指标(FD, FAD, LSD等)和主观用户偏好率上均显著优于端到端训练的Audit模型以及多种零样本基线(SDEdit, ZETA等)。例如,在声明式编辑任务中,SmartDJ的FAD得分为1.52,远优于最佳基线Audit的5.67;用户研究显示,在音频质量和与指令的对齐度上,SmartDJ的胜率在80%-95.5%之间(详见表1)。 框架 方法 训练 速度 FD↓ FAD↓ KL↓ LSD↓ CLAP↑ 无ALM Audit 是 2.07s 28.56 10.00 3.07 1.93 0.11 有ALM SDEdit 否 301s (74.6s) 19.66 3.71 3.25 2.22 0.17 Audit 是 11.6s (2.07s) 21.50 5.67 2.80 1.49 0.18 SmartDJ (ours) 是 13.1s (2.40s) 10.60 1.52 2.84 1.40 0.21 实际意义是什么:该工作为下一代智能、直观的音频编辑工具铺平了道路,有望革新VR/AR、游戏、影视制作等领域的音频后处理工作流,提升创作效率和沉浸感。 主要局限性是什么:整个框架的训练和评估完全依赖于合成数据集,其在真实、复杂、非结构化声场中的性能未被验证。ALM生成步骤的推理时间(约4.8秒)和多步编辑的累积时间(13.1秒)相比端到端方法仍有优化空间。框架对新增编辑操作类型的扩展需要重新训练。 🏗️ 模型架构 SmartDJ的框架由两个独立训练的核心模块组成:音频语言模型(ALM)规划器和潜在扩散模型(LDM)编辑器。其整体数据流与交互如图1和图2所示。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 330 words

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者:Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表:Zihan Liu(北京航空航天大学,上海人工智能实验室),Zhikang Niu(上海交通大学,上海创新研究院),Qiuyang Xiao(上海交通大学),Zhisheng Zheng(上海交通大学),Ruoqi Yuan(北京航空航天大学),Yuhang Zang(上海人工智能实验室),Yuhang Cao(上海人工智能实验室),Xiaoyi Dong(上海人工智能实验室,香港中文大学),Jianze Liang(上海人工智能实验室),Xie Chen(上海交通大学,上海创新研究院),Leilei Sun(北京航空航天大学),Dahua Lin(香港中文大学,上海人工智能实验室),Jiaqi Wang(上海人工智能实验室,上海创新研究院) 💡 毒舌点评 本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题,证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”,从音高、响度等基础感知到时空推理,层层深入,确实能测出模型的真实短板。不过,论文本身止步于“诊断医生”,并未给出“治疗方案”,其核心价值依赖于未来模型能否利用这个基准取得进步,稍显被动。 📌 核心摘要 本文指出,现有的音频基准测试主要评估可通过文本描述传达的语义内容,无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此,论文提出了“音频4D智能”的概念,即结合时间(1D)和三维空间(3D)进行深度推理的能力。作者构建了STAR-Bench基准,包含两个层级:基础声学感知(对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估)和整体时空推理(包括连续过程与离散事件序列的时间推理,以及静态定位、多源关系和动态轨迹跟踪的空间推理)。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型(16个开源,3个闭源)的评测中,STAR-Bench展现出巨大挑战性,人类表现远高于所有模型。研究发现:闭源模型(如Gemini 2.5 Pro)在知识和推理上领先,但细粒度感知仍是其瓶颈;开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如,在仅使用音频文本描述答题时,MMAU和MMAR基准的准确率仅下降5.9%和9.0%,而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%,证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究,为未来模型改进指明了方向,如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 257 words

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #自回归模型 #激活干预 #音频大模型 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Daniel Zhao(University of California, San Diego) 通讯作者:未说明(从作者列表和邮箱格式推断,第一作者Daniel Zhao可能是主要联系人,但未明确标注) 作者列表:Daniel Zhao(University of California, San Diego)、Daniel Beaglehole(University of California, San Diego)、Taylor Berg-Kirkpatrick(University of California, San Diego)、Julian McAuley(University of California, San Diego)、Zachary Novack(University of California, San Diego) 💡 毒舌点评 这篇论文的亮点在于它成功地将RFM这一“老”概念嫁接到了音乐生成这个热门但控制困难的任务上,并通过精巧的层/时间调度设计实现了相当不错的控制效果,免去了训练或微调基础模型的巨大开销。不过,其控制能力严重依赖于在高度理想化的合成音乐数据集(SYNTHEORY)上训练的探针,当面对真实世界复杂多变的音乐纹理时,这些探针发现的“方向”是否依然稳健有效,论文并未给出足够有说服力的证据。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 422 words

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #自回归模型 #歌唱语音合成 #多模态模型 #音频大模型 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #歌唱语音合成 #多模态模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度 高 👥 作者与机构 第一作者:未说明(论文列出了大量作者,但未明确区分第一作者) 通讯作者:未说明(论文提供了多位联系人邮箱,但未明确指定通讯作者) 作者列表:Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xeron Du, Zhen Ye, Tianyu Zheng, Zhengxuan Jiang, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi LI, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, XiangzhouWang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo(主要隶属机构为:Multimodal Art Projection (MAP), 香港科技大学 (HKUST);部分作者同时隶属Moonshot.ai, 上海交通大学 (SJTU), 清华大学, CMU, Queen Mary University of London等)。 💡 毒舌点评 亮点:作为首个在质量上能与Suno、Udio等商业巨头掰手腕的开源歌词到歌曲生成模型,YuE的诞生本身就是对音乐AI民主化的巨大贡献,其系统性技术方案(双轨预测、结构化条件、音乐ICL重设计)为后续研究提供了清晰的蓝图。短板:尽管在“音乐性”和“人声敏捷度”上表现亮眼,但在音质保真度(VocalQual, AccompQual)上与顶级闭源系统仍有可感知的差距,这指向了其语义-声学融合编解码器的根本性局限;此外,对于训练数据版权合规性的说明仍显笼统,这在生成式AI伦理日益受关注的当下是一个隐患。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 424 words

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频安全 #音频大模型 🔥 8.5/10 | 前25% | #模型评估 | #基准测试 | #音频安全 #音频大模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Li(南洋理工大学, 与清华大学计算机系、AI研究院、BNRist相关) 通讯作者:Xinfeng Li(南洋理工大学) 作者列表:Kai Li(南洋理工大学), Can Shen(北京师范大学-香港浸会大学联合国际学院), Yile Liu(早稻田大学), Jirui Han(独立研究者), Kelong Zheng(华中科技大学), Xuechao Zou(北京交通大学), Lionel Z. Wang(南洋理工大学), Shun Zhang(火箭军工程大学), Xingjian Du(罗切斯特大学), Hanjun Luo(浙江大学), Yingbin Jin(香港理工大学), Xinxin Xing(独立研究者), Ziyang Ma(南洋理工大学, 上海交通大学), Yue Liu(新加坡国立大学), YiFan Zhang(中国科学院), Junfeng Fang(新加坡国立大学), Kun Wang(南洋理工大学), Yibo Yan(香港科技大学广州), Gelei Deng(南洋理工大学), Haoyang Li(香港理工大学), Yiming Li(南洋理工大学), Xiaobin Zhuang(字节跳动), Tianlong Chen(北卡罗来纳大学教堂山分校), Qingsong Wen(松鼠AI学习), Tianwei Zhang(南洋理工大学), Yang Liu(南洋理工大学), Haibo Hu(香港理工大学), Zhizheng Wu(香港中文大学深圳), Xiaolin Hu(清华大学计算机系), Eng Siong Chng(南洋理工大学), Wenyuan Xu(浙江大学), XiaoFeng Wang(南洋理工大学), Wei Dong(南洋理工大学), Xinfeng Li(南洋理工大学) 💡 毒舌点评 亮点:堪称音频大模型“安全审计”的瑞士军刀,首次系统性地为ALLMs量身定制了六大可信度维度与评估工具集,填补了该领域至关重要的评估空白。 短板:评估流程高度依赖GPT-4o等LLM作为“法官”,其判定本身可能引入与音频模型相似的偏差,形成“用AI评估AI”的循环论证风险。 ...

2026-05-02 · 更新于 2026-07-03 · 3 min · 476 words

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #面部动画生成 #扩散模型 #音频大模型 #跨模态 #情感理解 🔥 8.0/10 | 前25% | #面部动画生成 | #扩散模型 | #音频大模型 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiayi Lyu (中国科学院大学) 通讯作者:Jian Xue (中国科学院大学) 作者列表:Jiayi Lyu (中国科学院大学), Leigang Qu (新加坡国立大学), Wenjing Zhang (中国科学院大学), Hanyu Jiang (中国科学院大学), Kai Liu (浙江大学), Zhenglin Zhou (浙江大学), Xiaobo Xia (新加坡国立大学), Jian Xue (中国科学院大学), Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 亮点: 论文最大的亮点在于引入了可解释的面部动作单元(AU)作为中间桥梁,将语音情感理解(通过ALM)和精细面部动画生成(通过扩散模型)优雅地解耦,为解决情感说话头生成中的“可控性与质量”困境提供了一个新颖且通用的框架。 短板: 尽管框架新颖,但作为核心控制信号的AU序列,其预测精度(在MEAD数据集上MAE为0.2085)可能成为整个系统性能的瓶颈;此外,论文中Stage 2的生成模块(Hallo V1, MEMO)并非作者原创,其创新更多体现在控制策略的整合而非生成架构的突破上。 ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 423 words

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型 ✅ 7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ashutosh Chaubey(南加州大学创意技术研究所) 通讯作者:未说明(论文提供了第一作者和通讯作者的邮箱,但未在作者列表中明确区分) 作者列表:Ashutosh Chaubey(南加州大学创意技术研究所)、Jiacheng Pang(南加州大学创意技术研究所)、Maksim Siniukov(南加州大学创意技术研究所)、Mohammad Soleymani(南加州大学创意技术研究所) 💡 毒舌点评 该工作像一个严谨的“情感AI产品测试员”,不仅自己设计了一套挑剔的“质检标准”(EmoReAlM基准),还研发了一套让模型“改掉坏习惯”的训练方法(AVEm-DPO),且实验做得很扎实。但它的核心方法(多模态DPO+去偏)更像是对现有技术的巧妙组合与针对性应用,在算法原创性上略显不足,更像是一篇优秀的工程系统论文而非理论突破。 🔗 开源详情 代码:论文提供了项目页面地址 avere-iclr.github.io,并声明代码、模型和基准将公开。 模型权重:论文声明将公开模型权重。 数据集:论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的附录(Appendix),包括所有数据创建和评估所用的提示(图19-37)、训练细节(C.3)、基准统计(B.3)、人类验证流程(B.2)、消融实验设置(D.5)等,复现材料非常充分。 论文中引用的开源项目:依赖的主要开源项目包括: 模型:EmotionLLaMA,Whisper (large-v3),LanguageBind (视频编码器),VideoLLaMA,PandaGPT,OneLLM,VITA-1.5,Qwen-2.5 Omni。 数据集:DFEW,MAFW,MER2025,RAVDESS,EMER。 工具:GPT-4o,Gemini-2.5,Qwen-2.5(用于数据生成和评估)。 📌 核心摘要 要解决什么问题:当前多模态大语言模型(MLLMs)在音视频情感推理中存在两大问题:一是“推理错误”,即模型将情感错误地关联到不相关的视听线索上;二是“感知错误”,即模型基于语言模型的文本先验,幻觉出不存在的视听线索来解释情感。 方法核心是什么:论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出:1)基于提示的模态偏好(PMP),确保模型关注正确的模态;2)基于情感的响应偏好(ERP),直接针对虚假关联和幻觉构建拒绝响应;3)引入文本先验去偏(TPD)正则项,惩罚仅基于文本生成的响应。 与已有方法相比新在哪里:相较于简单的DPO应用,AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略,特别是Prompt-based Modality Preference和Text-Prior Debiasing,这比传统只对响应进行偏好优化的方法更精细,更能解决跨模态幻觉问题。 主要实验结果如何:在多个数据集上,AVEm-DPO显著提升了基线模型性能。例如,在自有EmoReAlM基准上,以“Our base”模型为例,其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%(相对提升28%)。在EMER情感推理数据集的人类评估中,其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效,特别是TPD对降低幻觉至关重要。 实际意义是什么:该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案,包括一个可复现的基准测试(EmoReAlM)和一套有效的优化方法(AVEm-DPO),有助于构建更可靠、更少幻觉的情感AI代理。 主要局限性是什么:论文承认其基准测试(EmoReAlM)源自DFEW数据集,可能继承其文化偏见;训练数据和基准主要基于短视频,长视频情感理解仍是挑战;模型在“厌恶”这一模糊情感上的识别效果不佳,可能源于训练样本不足;且对虚假音频线索的缓解仍有改进空间。 🏗️ 模型架构 论文提出的AVEm-DPO是一种训练方法,而非一个新的神经网络架构。它应用于现有的音视频大语言模型(如EmotionLLaMA或作者自建的基线模型)之上,通过修改训练目标来优化模型。 ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 293 words

Discovering and Steering Interpretable Concepts in Large Generative Music Models

📄 Discovering and Steering Interpretable Concepts in Large Generative Music Models #音乐生成 #音频大模型 #稀疏自编码器 #模型评估 #模型解释性 ✅ 7.5/10 | 前25% | #音乐生成 | #稀疏自编码器 | #音频大模型 #模型评估 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Nikhil Singh(Dartmouth College)、Manuel Cherep(MIT)(共同第一作者) 通讯作者:未说明 作者列表:Nikhil Singh(Dartmouth College), Manuel Cherep(MIT), Pattie Maes(MIT) 💡 毒舌点评 亮点在于将大语言模型可解释性领域的前沿方法(稀疏自编码器)成功移植到音乐生成模型,并提出了一个完整的、可扩展的概念发现与引导框架,具有方法论上的开创性。短板在于实验规模局限于单一模型家族(MusicGen),且自动化评估依赖CLAP等外部模型,其评估结果的可靠性有待更全面的人工验证支撑,部分技术细节(如SAE训练策略)也未完全公开。 📌 核心摘要 问题:大型音乐生成模型(如MusicGen)能生成高质量音乐,但其内部表示如同“黑箱”,缺乏可解释性。我们需要理解模型内部“学到”了哪些音乐概念,以及这些概念是否与人类音乐理论一致或能揭示新的音乐规律。 方法核心:提出一个多阶段流水线:首先,从音乐语料库中提取预训练MusicGen模型的残差流激活;其次,使用稀疏自编码器(SAEs)对这些高维激活进行降维和稀疏化,以发现潜在的、可解释的特征;最后,通过自动标注(使用多模态LLM如Gemini和预训练音频分类器)和人类验证来为这些特征命名,并通过干预残差流来测试特征的可引导性。 创新点:这是首次将稀疏自编码器技术应用于音频/音乐领域的生成模型;构建了一个可扩展的、无需监督的概念发现与自动评估流水线;不仅发现了与已知音乐理论(如流派、乐器)一致的特征,还发现了一些理论上未明确编码但感知上连贯的“涌现”规律(如特定电子音效、单音纹理)。 主要实验结果:在MusicGen-Large模型上,通过SAE发现了数千个可过滤的特征。人类验证中,基于Essentia分类器的标签获得的人类置信度(3.96/5)高于基于Gemini的标签(3.19/5)。引导实验表明,约15-35%的测试特征能成功引导生成内容向目标概念靠拢,听觉测试(10名参与者)显示66%的情况下,SAE引导的版本比基线或随机引导版本更易被识别为目标概念。结果表明,模型的深层编码了更易解释的特征,且大模型的特征组织更具层次性。 实际意义:为理解生成式AI的“音乐理解”提供了实证工具,架起了模型内部表示与人类音乐概念之间的桥梁,有望促进更透明、可控的AI音乐创作,并为音乐理论研究提供新视角。 主要局限性:研究主要针对无条件生成(未使用文本提示),未探讨文本条件下的概念表示;自动化评估指标(CLAP分数)可能不完全反映人类对音乐概念的理解;引导实验的成功率有待提高,且引导可能导致生成质量下降。 🏗️ 模型架构 该论文的核心并非提出一个新的生成模型,而是一个用于分析和引导现有模型(MusicGen)内部表示的方法流水线。其整体架构如图1所示。 完整流程分为三个主要阶段: 激活提取与数据集构建: 输入:一个大型音乐语料库(论文中使用MusicSet,约16万段音频)。 处理:将音频输入预训练的MusicGen模型(MusicGen-Large或MusicGen-Small),并提取其多个Transformer层的残差流激活向量。 输出:一个“激活数据集”,包含每段音频在不同层、不同时间步的激活向量。 特征发现与过滤: ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 297 words

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 #数据增强 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #推理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel计算机与数据科学学院;实习于亚马逊) 通讯作者:未明确说明(论文提供了多位作者的邮箱,但未明确指定通讯作者) 作者列表: Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校;亚马逊) Roger Ren (亚马逊) Jingyuan Li (亚马逊) Rahul Pandey (亚马逊) Prashanth Gurunath Shivakumar (亚马逊) Ivan Bulyko (亚马逊) Ankur Gandhe (亚马逊) Ge Liu (伊利诺伊大学厄巴纳-香槟分校) Yile Gu (亚马逊) 💡 毒舌点评 本文最大的亮点在于精准诊断并命名了“测试时反向扩展”这一音频大模型推理的顽疾,并为此开出了“过程奖励”这剂对症良药,将强化学习的应用从粗放的结果监督提升到了精细的思维过程雕琢。然而,其方法的计算开销(需要多次采样)和奖励函数设计的复杂性,使其对资源有限的团队并不友好,且最终性能天花板仍受制于基础音频感知器的短板,这提醒我们“会思考”之前,得先“听清楚”。 ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 289 words

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haolin He(香港中文大学、蚂蚁集团) 通讯作者:Jian Liu(蚂蚁集团, rex.lj@antgroup.com)、Qiuqiang Kong(香港中文大学, qqkong@ee.cuhk.edu.hk) 作者列表:Haolin He(香港中文大学、蚂蚁集团)、Xingjian Du(罗切斯特大学)、Renhe Sun(蚂蚁集团)、Zheqi Dai(香港中文大学)、Yujia Xiao(香港中文大学)、Mingru Yang(蚂蚁集团)、Jiayi Zhou(蚂蚁集团)、Xiquan Li(上海交通大学)、Zhengxi Liu(香港中文大学)、Zining Liang(香港中文大学)、Chunyat Wu(香港中文大学)、Qianhua He(华南理工大学)、Tan Lee(香港中文大学)、Xie Chen(上海交通大学)、Wei-Long Zheng(上海交通大学)、Weiqiang Wang(蚂蚁集团)、Mark Plumbley(伦敦国王学院)、Jian Liu(蚂蚁集团)、Qiuqiang Kong(香港中文大学) 💡 毒舌点评 亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题,并巧妙地将此“缺陷”转化为训练策略设计的依据(Weak-to-Strong),结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI(Qwen3-235B)来构建数据集和进行质量过滤,这多少有点“用魔法打败魔法”,其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型(Qwen2.5-Omni)和评估模型(A-Flamingo2, R1-AQA, Kimi-Audio)均为已公开的模型。 数据集:AudioMCQ是本文构建的数据集,论文中描述了构建方法和组成,但未明确提供数据集的公开下载链接或获取方式。 Demo:论文中未提及在线演示。 复现材料:提供了详细的超参数配置表(表6,表7)、训练策略说明、评估提示模板(附录B)和质量验证流程(附录C),复现细节较为充分。 论文中引用的开源项目:Qwen3-235B(用于数据生成)、Qwen2.5-Omni(骨干模型)、A-Flamingo2、R1-AQA、Kimi-Audio(用于ACF评估)、GRPO(训练方法)、DeepSpeed ZeRO-2(优化器)。 开源计划:论文中未提及明确的开源计划。 📌 核心摘要 解决的问题:大型音频语言模型(LALMs)的多阶段后训练(如SFT后接RL)效果不佳,缺乏针对性的高质量数据集,且普遍存在“零音频贡献”现象(模型仅凭文本信息即可答对,无需听音频)。 方法核心:首先构建了大规模音频选择题数据集AudioMCQ(571k样本)。其次,提出音频贡献过滤(ACF)方法,利用多个模型在“静音”输入下的正确率,将数据分为“弱音频贡献”和“强音频贡献”子集。最后,基于此提出两种训练范式:Weak-to-Strong(SFT用弱音频贡献数据,GRPO用强音频贡献数据)和Mixed-to-Strong(SFT用混合数据,GRPO用强音频贡献数据)。 创新性:1) 构建了首个大规模、带思维链注释的音频选择题数据集;2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型(显式逻辑推理与隐式知识检索);3) 基于音频贡献度提出了简单有效的后训练数据分配策略。 实验结果:使用Weak-to-Strong策略,在MMAU-test-mini和MMAU上分别达到78.2%和75.6%;使用Mixed-to-Strong策略,在MMAR和MMSU上分别达到67.0%和71.7%,均为开源模型SOTA。具体结果见表5及下表: 方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义:为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略,揭示了当前评估基准中可能存在的“伪音频理解”问题。 主要局限性:数据集构建完全依赖一个强大的大语言模型(Qwen3-235B),可能引入偏差;ACF方法依赖三个特定的现成模型;Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong,表明其普适性有待验证。 🏗️ 模型架构 本文不提出新的模型架构,而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此,其“架构”体现在数据处理与训练流程上。 图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集,经过问题生成、选择题构建、结构化与非结构化思维链生成,以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线,最终产出高质量的选择题数据集。 ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 284 words