Icassp-2026

Test Time Adaptation for Speech Emotion Recognition

📄 Test Time Adaptation for Speech Emotion Recognition #语音情感识别 #领域适应 #跨语料库 #预训练 #Wav2Vec ✅ 7.0/10 | 前25% | #语音情感识别 | #领域适应 | #跨语料库 #预训练学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiaheng Dong（The University of Melbourne, Australia，标注为*Equal Contribution）第一作者：Hong Jia（The University of Auckland, New Zealand，标注为*Equal Contribution）通讯作者：未说明作者列表：Jiaheng Dong（The University of Melbourne）、Hong Jia（The University of Auckland）、Ting Dang（The University of Melbourne） 💡 毒舌点评本文最大的亮点是为“测试时适应”在语音情感识别领域的应用做了首次“摸底考试”，方法论全面，结论（如无监督方法因情感模糊性而失效）具有启发性，填补了明确的研究空白。然而，其短板在于结论“没有万能方法”虽正确但略显保守，且作为一篇评估论文，其提出的具体改进路径有限，未能在“如何针对性设计SER-TTA方法”上给出更深入的解决方案。 ...

Test-Time Scaling for Auditory Cognition in Audio Language Models

📄 Test-Time Scaling for Auditory Cognition in Audio Language Models #音频问答 #测试时扩展 #音频大模型 #大语言模型 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #测试时扩展 | #音频大模型 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ting Dang (墨尔本大学，澳大利亚) 通讯作者：未说明作者列表：Ting Dang（墨尔本大学，澳大利亚）、Yan Gao（剑桥大学，英国）、Hong Jia（奥克兰大学，新西兰；墨尔本大学，澳大利亚） 💡 毒舌点评这篇论文首次系统性地探索了测试时扩展（TTS）策略在音频语言模型（ALM）听觉认知任务上的应用，填补了一个明显的空白。然而，其自建数据集仅包含10名参与者，样本规模偏小，这使得论文声称的“揭示ALM的局限性”和“TTS显著提升性能”的结论在泛化性上略显薄弱。 🔗 开源详情代码：论文中提到“Code will be made publicly available upon acceptance.”（代码将在论文接收后公开），但未提供具体代码仓库链接。模型权重：论文中评估的开源模型（Qwen2-Audio， Audio-Flamingo 2）是公开的，但本文未提及发布新的模型权重。闭源模型（GPT-4o， Gemini系列）为API调用。数据集：本文构建的听觉认知评估数据集未提及公开或获取方式。 Demo：未提及。复现材料：论文给出了TTS策略的文字描述和图表，但未提供完整的训练/评估配置文件、超参数列表或复现脚本。论文中引用的开源项目：论文引用了QwenLM、Flamingo等模型架构作为开源模型的基础。 📌 核心摘要问题：现有的音频语言模型（ALM）在训练数据和基本能力上关注语音转录与感知，但在应对真实世界复杂听觉认知场景（如鸡尾酒会问题）时，其推理能力和适应性不足。方法核心：本文的核心在于评估ALM的认知能力并探索提升其推理能力的方法。作者设计了三个难度递增的听觉认知任务（自然声识别、单说话人数字序列、双说话人重叠数字序列），收集了相应的人类回答数据集。随后，系统评估了五款主流ALM在无额外处理下的表现，并首次尝试应用五种源自文本大模型的测试时扩展（TTS）策略（包括Chain-of-Thought提示、自一致性解码、束搜索加权、LLM验证器打分等）来增强模型的推理能力。创新点：相较于已有工作，本文的创新在于：(1) 首次针对ALM设计并评估了听觉认知任务；(2) 首次将多种TTS策略迁移到ALM的音频推理任务中，证明了其有效性；(3) 揭示了当前ALM在复杂听觉场景下的显著不足，并指出了提升方向。主要实验结果：所有测试的ALM（包括开源和闭源）在听觉认知任务上的表现均低于人类。其中GPT-4o表现最佳，在某些复杂场景甚至超越人类。引入TTS策略后，性能获得显著提升（相对提升幅度从9%到150%不等）。具体结果见表2。实际意义：该研究为提升ALM在复杂、真实听觉环境中的理解和推理能力提供了新思路，验证了TTS作为一种无需额外训练即可增强模型推理能力的方法在多模态领域的潜力。主要局限性：研究构建的数据集规模较小（10名参与者，180条音频事件），可能限制结论的普遍性；实验仅在有限的五个模型和三种任务上进行；缺乏为音频任务专门设计的奖励模型，验证器方案（使用GPT-4o）较为通用。表2：使用TTS的准确率对比（括号内为相对百分比提升） ...

Testing The Efficient Coding Hypothesis Beyond Humans: The Auditory Kernels of Bat Vocalizations

📄 Testing The Efficient Coding Hypothesis Beyond Humans: The Auditory Kernels of Bat Vocalizations #生物声学 #稀疏编码 #信号处理 #音频分类 ✅ 7.5/10 | 前25% | #生物声学 | #稀疏编码 | #信号处理 #音频分类学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Aleksandra Savova（代尔夫特理工大学电气工程、数学与计算机科学学院）、Dimme de Groot（代尔夫特理工大学电气工程、数学与计算机学院）、Jorge Martinez（代尔夫特理工大学电气工程、数学与计算机学院） 💡 毒舌点评亮点：方法新颖，首次将稀疏编码（Matching Pursuit）应用于蝙蝠回声定位信号的“听觉核”分析，成功提取出与叫声结构（CF-FM）高度对应的功能特化表示，为“高效编码假说”跨越物种边界提供了有力的计算证据。短板：结论的生物学说服力受限于缺乏真实的蝙蝠听觉神经生理数据（如revcor函数）作为验证基准，目前只能证明叫声结构本身“适合”被稀疏编码，而非“证实”蝙蝠大脑正是如此编码。 🔗 开源详情代码：提供了GitHub仓库链接（https://github.com/D1mme/rp_auditory_kernels/tree/main），包含字典学习和匹配追踪的实现。模型权重：论文中未提及公开训练好的“听觉核”字典权重。数据集：使用公开的ChiroVox数据集（https://chirovox.org/）。 Demo：论文中未提及在线演示。复现材料：论文详细说明了数据预处理步骤、模型参数（字典大小、初始化长度、MP率）和评估指标。引用了具体的MP算法实现库[38]。论文中引用的开源项目：引用了匹配追踪的具体实现[38]。 📌 核心摘要问题：高效编码假说（生物感知系统最大化信息传输并最小化神经消耗）在人类语音中得到验证，但其在非人类（特别是依赖复杂回声定位的蝙蝠）听觉感知中的作用尚不明确。方法：采用基于匹配追踪（Matching Pursuit）的稀疏编码方法，以大菊头蝠（Rhinolophus affinis）的回声定位叫声为数据，通过数据驱动学习得到一组“听觉核”字典，并分析其特性。创新：与以往使用黑盒模型研究蝙蝠声音不同，本研究专注于从叫声结构本身出发，在早期听觉处理层面（独立于高级神经处理）检验其是否内禀地优化了稀疏表示。结果：学习到的核具有紧凑、稀疏和功能专化的特点。它们能高效重建叫声（例如，图1显示200个激活即可达到SNR 20.62 dB），且核的激活模式能编码叫声特定形状。定量比较显示，对于R. affinis叫声，该方法的比特率-保真度（SNR）优于傅里叶和小波变换（图4）。聚类分析（27类）揭示了叫声多样性，包括主要谐波结构、伪影和窄CF成分（图6）。所有稀疏度指标（Gini指数≈0.99）均很高。意义：为动物发声信号的计算建模提供了基础，支持未来在解码动物声音和跨物种通信领域的研究。证明了高效表示可以从非人类发声中涌现，且哺乳动物的听觉编码策略可能具有共享的进化基础。局限：缺乏生物学验证数据（如蝙蝠听觉神经元的调谐特性）。聚类结果缺乏生物学标签进行验证。跨物种泛化性有限（对近缘种R. pearsonii效果较差）。 🏗️ 模型架构论文未采用传统的深度神经网络，其“模型”是基于稀疏编码框架（图1）构建的。整体流程如下： ...

Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment

📄 Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment #音乐生成 #强化学习 #文本到音乐 #自回归模型 #大语言模型 ✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #文本到音乐 #自回归模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Abhinaba Roy (新加坡科技设计大学) 通讯作者：未明确说明，从致谢和贡献看，Dorien Herremans或Geeta Puri可能为通讯作者，但论文中未明确标注。作者列表：Abhinaba Roy (新加坡科技设计大学)、Geeta Puri (新加坡科技设计大学)、Dorien Herremans (新加坡科技设计大学) 💡 毒舌点评本文巧妙地将大语言模型领域成熟的“推理时对齐”范式跨界应用到符号音乐生成，通过精心设计的奖励函数（文本-音频一致性+调性一致性）引导搜索，无需重训模型即可显著提升生成质量，尤其是对自由文本描述的适应性（2.6:1偏好），思路清晰且实用。不过，其核心贡献更像是一次“优秀的系统集成与工程优化”，在音乐生成的深层理论或全新架构上并未突破；奖励函数的设计（如固定权重）以及对“音乐性”的衡量仍依赖于CLAP等外部模型和调性规则，可能限制了其捕捉更复杂、更人性化音乐美学的能力。 🔗 开源详情代码：提供代码仓库链接 https://github.com/AMAAILab/t2m-inferalign。模型权重：未提及是否公开预训练的模型权重。数据集：未提及新数据集。基线模型使用公开的MidiCaps数据集。 Demo：未提及在线演示。复现材料：论文给出了关键超参数（m, T, α, β）和生成设置（2000 tokens），但未提供详细的训练日志、配置文件或预训练检查点。论文中引用的开源项目：Text2midi模型、MidiCaps数据集、CLAP模型、Claude-3-Haiku LLM、COSIATEC工具、MIDI Miner库、PsyToolkit。 📌 核心摘要解决的问题：现有端到端文本到MIDI生成模型（如Text2midi）在推理时，生成的符号音乐在语义上与输入文本对齐不足，且常出现破坏音乐结构性（如调性不协和）的问题。方法核心：提出Text2midi-InferAlign，一种无需重训练的推理时对齐框架。将生成过程建模为奖励引导的树搜索，交替进行“探索”（使用LLM对原始标题进行变异以扩展搜索空间）和“利用”（基于两个奖励函数：CLAP衡量文本-音频一致性，调性检查衡量和声一致性，对候选序列进行排序和替换）。创新之处：首次将基于奖励的推理时对齐技术应用于符号音乐生成；设计并验证了针对语义和结构完整性的互补奖励函数；引入标题变异机制以促进生成多样性。主要实验结果：在MidiCaps测试集上，相比基线Text2midi模型，所有客观指标均有提升，其中CLAP分数提升31.8%，速度（TB）提升32.5%。主观听音测试中，68.75%的听众认为其音乐质量更优。消融实验显示，变异数T=5、替换周期m=100时效果较优。实际意义：提供了一种即插即用的增强模块，可提升任意自回归音乐生成模型的输出质量与可控性，推动更实用的AI音乐创作工具发展。主要局限性：性能提升高度依赖奖励函数的设计和外部模型（如CLAP）的质量；对于包含丰富音乐细节的标题（如MidiCaps），探索空间受限，提升幅度有限；推理时间略有增加（约7%）。 🏗️ 模型架构本论文未提出新的生成模型架构，而是提出了一个推理时优化框架，应用于现有的自回归MIDI生成模型（以Text2midi为例）。整体流程如图1所示。 ...

Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment

📄 Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment #空间音频 #音频生成 #预训练 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #多任务学习 | #音频生成 #预训练学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yunyi Liu（悉尼大学 University of Sydney）通讯作者：未说明作者列表：Yunyi Liu（悉尼大学）、Shaofan Yang（杜比实验室 Dolby Laboratories）、Kai Li（杜比实验室）、Xu Li（杜比实验室） 💡 毒舌点评论文的亮点在于其巧妙的“分解”思想，将复杂的移动声音生成问题拆解为可控的轨迹预测、单声道音频生成与基于对象的音频空间化，框架清晰且具有很好的模块化扩展性。但短板在于，为了评估轨迹预测模块，构建了一个基于线性匀速运动的简化合成数据集，这可能无法充分代表真实世界中声音轨迹的复杂性和音频的多样性，使得方法在泛化到真实场景时的有效性存疑。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：论文中明确说明构建了合成数据集（76,850个样本），但未提供公开下载或获取方式。 Demo：提供了在线演示网站链接：https://reinliu.github.io/text2move/。复现材料：论文给出了部分训练细节（优化器、学习率、轮数、批次大小等），但未提供完整的配置、检查点或附录说明。论文中引用的开源项目：使用了DistilBERT文本编码器[14]、Make-An-Audio 2扩散模型[16]、AudioTime数据集[17]和HRTF库[18]。 📌 核心摘要问题：现有文本驱动的空间音频生成主要聚焦于静态声源，无法有效生成具有动态空间运动的声音，限制了沉浸式体验。方法核心：提出一种混合框架，将生成过程分解为：a) 从文本预测声源的三维时空轨迹；b) 微调一个预训练的文本到音频模型以生成与该轨迹时间对齐的单声道音频；c) 基于预测的轨迹对单声道音频进行基于对象的空间化模拟。新意：首次在统一框架中显式地连接了文本、轨迹和音频，利用了“轨迹”作为中间表示来提供精确的空间和时间控制，区别于端到端生成FOA或双耳音频的方法。主要结果：文本到轨迹模型在合成测试集上表现出合理的预测能力（例如，方位角MAE为18.53°，范围感知MAE为15.52°）。轨迹预测器和时间调整器均能实现高精度的时间对齐（起止点MAE均低于0.01秒，重叠率OLR分别为0.86和0.94）。与仅预测端点的基线模型相比，全轨迹预测模型的绝对精度较低，但预测结果仍落在预定义的空间范围内。实际意义：为可控的移动声音生成提供了新思路，可集成到现有的文本到音频工作流中，应用于VR/AR、游戏、电影音效等需要动态空间音频的领域。主要局限性：完全依赖于构建的合成数据集进行训练和评估，数据集中的运动轨迹为简单的线性匀速运动，音频与空间属性是解耦合成的，可能无法完全反映真实世界数据的复杂性；未与现有的端到端空间音频生成方法在生成质量（如听感自然度、空间准确性）上进行直接对比。 🏗️ 模型架构本文提出的Text2Move框架由两个主要部分构成，其整体架构如图1所示。 ...

TextlessRAG: End-to-End Visual Document RAG by Speech without Text

📄 TextlessRAG: End-to-End Visual Document RAG by Speech without Text #语音问答 #端到端 #基准测试 #跨模态 #工业应用 🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Peijin Xie (哈尔滨工业大学 ITNLP实验室) 通讯作者：Bingquan Liu (哈尔滨工业大学 ITNLP实验室) 作者列表：Peijin Xie (哈尔滨工业大学 ITNLP实验室)、Shun Qian (哈尔滨工业大学 ITNLP实验室)、Bingquan Liu (哈尔滨工业大学 ITNLP实验室)、Dexin Wang (奇虎360科技智脑AI实验室)、Lin Sun (奇虎360科技智脑AI实验室)、Xiangzheng Zhang (奇虎360科技智脑AI实验室) 💡 毒舌点评亮点：创新性地提出了完全“去文本化”的语音文档RAG框架，将语音交互的便捷性与视觉文档理解相结合，是“多模态原生”交互的一次有意义探索，并首次发布了双语语音-文档RAG基准数据集。短板：端到端框架严重依赖现有的强多模态模型（ColQwen-Omni， Qwen2.5-Omni），核心的“无文本”生成质量在部分数据集（如DUDE、CDR）上仍明显低于使用文本的SOTA模型，延迟优势相对SOTA（ViDoRAG）的差距也未充分证明。 ...

The 3rd Clarity Prediction Challenge: A Machine Learning Challenge for Hearing aid Speech Intelligibility Prediction

📄 The 3rd Clarity Prediction Challenge: A Machine Learning Challenge for Hearing aid Speech Intelligibility Prediction #语音增强 #预训练 #基准测试 #模型评估 #数据集 ✅ 7.5/10 | 前25% | #语音增强 | #预训练 | #基准测试 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jon Barker (谢菲尔夫大学计算机系) 通讯作者：未说明作者列表：Jon Barker (谢菲尔夫大学计算机系), Michael A. Akeroyd (诺丁汉大学医学院), Trevor J. Cox (索尔福德大学声学研究中心), John F. Culling (卡迪夫大学心理学系), Jennifer Firth (诺丁汉大学医学院), Simone Graetzer (索尔福德大学声学研究中心), Graham Naylor (诺丁汉大学医学院) 💡 毒舌点评亮点：该论文最大的贡献是构建并开源了一个目前规模最大、最具生态效度的助听器语音可懂度预测数据集与基准，其精心设计的“三轮渐进式挑战”和“评估集完全未见”模式，为评估模型的真实泛化能力设立了黄金标准。短板：作为一篇挑战赛总结报告，它更侧重于结果汇编与现象分析（如听众变异），而对顶尖系统的具体技术路径、失败案例的深层原因挖掘深度有限，更像是一份详尽的“官方赛事白皮书”，而非一篇聚焦于某个算法突破的学术论文。 ...

The Curious Case of Visual Grounding: Different Effects for Speech-and Text-Based Language Encoders

📄 The Curious Case of Visual Grounding: Different Effects for Speech-and Text-Based Language Encoders #多模态模型 #自监督学习 #对比学习 #语音表示分析 #跨模态表示学习 🔥 8.0/10 | 前25% | #模型评估 | #对比学习 | #多模态模型 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Adrian Sauter (Human-Centered AI, Helmholtz Munich；原单位：Institute for Logic, Language and Computation, University of Amsterdam) 通讯作者：未明确说明，论文列出三位作者且无标注，推测为Willem Zuidema与Marianne de Heer Kloots（阿姆斯特丹大学）。作者列表：Adrian Sauter（Human-Centered AI, Helmholtz Munich；University of Amsterdam）、Willem Zuidema（Institute for Logic, Language and Computation, University of Amsterdam）、Marianne de Heer Kloots（Institute for Logic, Language and Computation, University of Amsterdam） 💡 毒舌点评亮点：论文的实验设计非常巧妙，利用精心构造的音素和语义聚类数据集，结合全局（CKA）与局部（词对、聚类）分析方法，得出了一个反直觉且重要的结论——视觉语境化对语音模型语义结构的破坏性影响。短板：结论可能局限于特定的模型对（wav2vec2/FaST-VGS+与BERT/VG-BERT）和英语单词级设置，对更广泛的架构、语言及句子级场景的泛化性有待验证；且分析聚焦于表示空间的几何性质，与下游任务性能的关联未被实证。 ...

The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

📄 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #领域适应 #知识蒸馏 #音频水印 #音频安全 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #领域适应 | #知识蒸馏 #音频水印学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhenshan Zhang（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心）通讯作者：Ming Li（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心， ming.li369@dukekunshan.edu.cn）作者列表：Zhenshan Zhang（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心）、Xueping Zhang（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心）、Yechen Wang（OfSpectrum, Inc.）、Liwei Jin（OfSpectrum, Inc.）、Ming Li（杜克昆山大学多模态智能系统苏州重点实验室，数字创新研究中心） 💡 毒舌点评亮点：选题填补了一个重要的认知空白——系统量化了“水印”这种合法但普遍存在的人为扰动对反欺骗系统的“无差别攻击”效果，实验设计严谨（控制水印比例、类型分布），结论可靠。提出的KPWL框架在“已知水印”适应上取得了立竿见影的效果，思路清晰实用。短板：在“未见水印”场景下的性能反而下降，暴露了当前方法对水印特异性的过拟合，极大限制了其在真实世界（水印类型未知且多样）中的应用价值，也说明“领域适应”的本质挑战并未被彻底解决。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/Alphawarheads/Watermark_Spoofing.git。模型权重：论文未提及是否公开预训练的模型权重（如基线XLSR+SLS或KPWL适应后的模型）。数据集：论文指出构建了“Watermark-Spoofing”数据集，并提供了获取方式（通过上述GitHub仓库），表明数据集是公开的。 Demo：论文中未提及在线演示。复现材料：论文详细说明了数据集构建协议（水印方法、比例）、训练配置（优化器、学习率、轮数、损失函数超参数）、评估设置，复现信息充分。论文中引用的开源项目：引用了ASVspoof 2019/2021数据集[12,20]、In-the-Wild数据集[21]、多种水印方法（WavMark[4], Timbre[5], AudioSeal[13]等）、反欺骗模型（XLSR[6], SLS[9], Nes2Net[10]）以及数据增强工具RawBoost[28]。 📌 核心摘要问题：本文首次研究了广泛使用的音频水印技术（为版权保护设计）对语音反欺骗（深度伪造检测）系统性能的影响，发现这种影响之前被完全忽视。方法核心：构建了包含多种手工和DNN水印的“Watermark-Spoofing”数据集，并系统评估了现有模型性能下降的程度。提出名为“知识保留水印学习”（KPWL）的适应框架，通过在冻结前端（XLSR）和分类器的情况下微调中间层，并结合对称知识蒸馏与参数锚定，使模型能适应水印引入的分布偏移。创新：首次揭示了音频水印是反欺骗系统面临的一种新的、未被研究的领域偏移源；首次构建了用于评估和缓解此问题的专用数据集与基准；提出了首个旨在同时适应水印并保留原始域检测能力的专用框架。实验结果：在ASVspoof 2021 LA数据集上，当75%的样本被水印时，基线模型（XLSR+SLS）的EER从3.02%上升至3.68%。KPWL模型在相同条件下将EER降至3.21%，同时在干净数据上保持3.06%（与基线3.02%接近）。然而，在“未见水印”评估中，基线模型在75%水印（LA21）下EER为9.94%，而KPWL模型恶化至11.22%。实际意义：提醒反欺骗系统开发者需考虑水印带来的鲁棒性挑战；为构建抗水印污染的反欺骗系统提供了首个基准和初步解决方案；揭示了水印技术可能对语音安全生态产生的意外副作用。主要局限性：KPWL框架在应对未见过的水印类型时效果不佳甚至有害，表明当前方法的适应能力局限于训练时接触过的特定水印，泛化能力有待突破。 🏗️ 模型架构本文的核心模型架构并非提出一种全新的端到端神经网络，而是提出了一种训练策略与框架（KPWL），用于适应现有的反欺骗模型以应对水印干扰。以论文中作为骨干的 XLSR+SLS 模型为例，其整体流程与KPWL框架的适配如下： ...

The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs

📄 The Muse Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMs #音乐理解 #基准测试 #音频大模型 #模型评估 🔥 8.5/10 | 前25% | #音乐理解 | #基准测试 | #音频大模型 #模型评估学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Brandon James Carone（纽约大学心理学系，音乐与音频研究实验室）通讯作者：未说明作者列表：Brandon James Carone（纽约大学心理学系，音乐与音频研究实验室）、Iran R. Roman（伦敦玛丽女王大学电子电气工程与计算机科学学院，多模态AI中心）、Pablo Ripollés（纽约大学心理学系，音乐与音频研究实验室） 💡 毒舌点评亮点在于它像一把精准的手术刀，切开了当前音频大模型“音乐理解”的华丽外衣，暴露出它们在真正的音乐关系推理（如转调、节拍感知）面前脆弱不堪的内核。短板则是论文止步于“诊断”而未开出“药方”——它证明了现有范式和提示技巧的局限，但对于如何从根本上构建具备音乐不变性表示的模型，讨论略显不足。 🔗 开源详情代码：提供了论文中提到的GitHub仓库链接（github.com/brandoncarone/MUSE_music_benchmark），用于评估脚本和任务描述。模型权重：论文中未提及提供新模型权重，评估的是现有公开模型（Gemini, Qwen, Audio Flamingo 3）。数据集： 200段音乐刺激已公开，提供了Airtable链接。人类被试实验数据已公开，提供了OSF存储库链接，并设置了只读访问权限。 Demo：论文中未提及在线演示。复现材料：提供了刺激制作工具和参数（Logic Pro X，具体设备型号和插件）、完整的评估方法（提示策略、few-shot示例、系统指令的摘要在表A中）以及人类实验的详细流程。论文中引用的开源项目：评估的模型均为外部开源或公开API项目（Gemini 2.5, Qwen2.5-Omni, Audio Flamingo 3）。使用了PsychoPy进行人类实验。 📌 核心摘要解决的问题：现有针对音频大语言模型的评测多集中于表层分类任务，无法有效评估其对音乐深层结构（如音高不变性、调性层级、节奏分组）的感知和关系推理能力。方法核心：构建了名为“MUSE”的音乐理解与结构评估基准，包含10项任务，分为“初级”（基础感知与不变性）和“高级”（需要音乐理论知识的推理）两个层级，并系统性地评估了四个SOTA模型（Gemini Pro/Flash, Qwen2.5-Omni, Audio Flamingo 3）在“独立”和“思维链（CoT）”提示下的表现，同时与200名人类被试进行对比。新在哪里：与现有基准不同，MUSE的任务设计深深植根于音乐认知科学，旨在探测模型是否真正理解了音乐的“结构”而非仅仅“标签”。它首次对多个前沿模型在关系推理任务上进行了系统性的、与人类对标的横向比较。主要实验结果：模型表现方差极大，且普遍存在严重缺陷。例如，在旋律形状识别任务中，Qwen2.5-Omni的准确率仅为23.33%，低于25%的随机水平（见表2）。最强模型Gemini Pro在初级任务上接近人类专家（如怪音检测100%），但在高级推理任务（如节拍识别46.67%）上远低于人类专家（73.30%）。CoT提示策略效果不稳定，常带来性能下降。实际意义：MUSE为评估和推动具备真正音乐理解能力的AI系统提供了一个关键的诊断工具和基准。它明确指出，提升模型能力可能需要从架构和训练范式上突破，而不仅仅是缩放规模或优化提示。主要局限性：基准测试本身无法指明解决路径。论文揭示了差距，但对于如何设计能学习音乐不变表示的模型，提出的建设性方案有限。此外，人类“专家”样本量较小（N=6），可能影响对比的统计效力。 🏗️ 模型架构本文并非提出一个新的模型架构，而是对现有音频大语言模型进行系统性评测的框架论文。因此，其核心“架构”是评测系统本身。评测流程如下： ...