模型比较 | 语音/音乐/音频论文速递

Toward Fair Speech Technologies: A Comprehensive Survey of Bias and Fairness in Speech AI

📄 Toward Fair Speech Technologies: A Comprehensive Survey of Bias and Fairness in Speech AI #模型评估 #模型比较 #多语言 #鲁棒性 ✅ 7.5/10 | 前25% | #模型评估 | #模型比较 | #多语言 #鲁棒性 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（摘要中未明确标注）通讯作者：未说明（摘要中未明确标注）作者列表：Yi-Cheng Lin（未说明）、Yun-Shao Tsai（未说明）、Kuan-Yu Chen（未说明）、Hsiao-Ying Huang（未说明）、Huang-Cheng Chou（未说明）、Hung-yi Lee（未说明） 💡 毒舌点评亮点：这篇综述成功地将语音AI公平性这个“散装”领域进行了系统化重构，提出的“鲁棒性、表征、治理”三范式框架和七个适配语音模态的公平定义，为后续研究提供了极佳的导航图和理论脚手架。短板：作为一篇旨在“诊断”和“评估”的综述，其自身缺乏在统一框架下的定量实验验证或系统性案例分析，提出的评估指标选择决策树等工具的效用尚未通过实证得到检验，略显“纸上谈兵”。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 📌 核心摘要解决的问题：语音AI技术被应用于高风险场景，但其公平性研究分散在各个任务和学科中，缺乏统一的视角和框架，导致不同任务间的偏差失败模式和共性机制被忽视。方法核心：通过综合分析超过400篇文献，本文提出了一个统一的框架，将形式化的公平定义与语音模态下的评估、诊断和缓解策略联系起来。与已有方法相比新在哪里：超越了通用机器学习综述对语音特性的忽视，也超越了单一任务综述的局限。首次系统性地提出并阐述了七个适配语音模态的公平定义，并将领域的概念演进归纳为“鲁棒性”、“表征”和“治理”三个范式。主要实验结果：本文为综述论文，未提供作者自己进行的实验结果。其主要“结果”是基于文献的分析，例如：诊断出偏差来源沿着语音处理管道分布，并发现了如信道偏差作为人口统计代理、情感标签标注主观性等语音特有的机制。实际意义：为语音AI的研究者和开发者提供了系统的公平性认知地图、评估指标选择指南、偏差诊断思路和缓解策略分类，有助于推动该领域向更公平的方向发展，具有重要的指导和规范意义。主要局限性：作为综述，其主要贡献在于梳理和框架构建，缺乏原创的实验验证；提出的框架和工具（如指标选择决策树）的有效性需要未来研究通过实证来检验；可能无法完全覆盖所有最新的快速进展。 🏗️ 模型架构本文为综述论文，未提出具体的算法模型，因此不涉及模型架构描述。 ...

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #预训练 #自监督学习 #模型比较 #基准测试 ✅ 7.0/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #模型比较学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Marius Miron（Earth Species Project），David Robinson（Earth Species Project）（共同贡献）通讯作者：Marius Miron, David Robinson（Earth Species Project）作者列表：Marius Miron（Earth Species Project），David Robinson（Earth Species Project），Milad Alizadeh（Earth Species Project），Ellen Gilsenan-McMahon（Earth Species Project），Gagan Narula（Earth Species Project），Emmanuel Chemla（Earth Species Project），Maddie Cusimano（Earth Species Project），Felix Effenberger（Earth Species Project），Masato Hagiwara（Earth Species Project），Benjamin Hoffman（Earth Species Project），Sara Keen（Earth Species Project），Diane Kim（Earth Species Project），Jane Lawton（Earth Species Project），Jen-Yu Liu（Earth Species Project），Aza Raskin（Earth Species Project），Olivier Pietquin（Earth Species Project），Matthieu Geist（Earth Species Project）。 💡 毒舌点评亮点在于实验设计极其严谨和全面，如同为生物声学编码器领域做了一次“高考”，系统性地比较了各种技术路线，得出了可操作的“最优训练配方”。短板在于，其核心贡献是实证结论而非提出一种全新的、具有独创性的模型架构，更像是一个高质量的“工程最佳实践”指南。 ...

ICLR 2026 - 模型比较论文列表

ICLR 2026 - 模型比较共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 OptMerge: Unifying Multimodal LLM Capabilities and Modalitie 7.0分前25% 📋 论文详情 🥇 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging ✅ 7.0/10 | 前25% | #模型比较 | #迁移学习 | #多模态模型 #模型评估 👥 作者与机构第一作者：Yongxian Wei (清华大学) 通讯作者：Chun Yuan (清华大学) 作者列表：Yongxian Wei (清华大学)， Runxi Cheng (清华大学)， Weike Jin (华为诺亚方舟实验室)， Enneng Yang (中山大学)， Li Shen (中山大学)， Lu Hou (华为诺亚方舟实验室)， Sinan Du (清华大学)， Chun Yuan (清华大学)， Xiaochun Cao (中山大学)， Dacheng Tao (南洋理工大学) 💡 毒舌点评 ...

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型评估 #模型比较 #迁移学习 #多任务学习 ✅ 7.0/10 | 前25% | #模型比较 | #迁移学习 | #多模态模型 #模型评估学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yongxian Wei (清华大学) 通讯作者：Chun Yuan (清华大学) 作者列表：Yongxian Wei (清华大学)， Runxi Cheng (清华大学)， Weike Jin (华为诺亚方舟实验室)， Enneng Yang (中山大学)， Li Shen (中山大学)， Lu Hou (华为诺亚方舟实验室)， Sinan Du (清华大学)， Chun Yuan (清华大学)， Xiaochun Cao (中山大学)， Dacheng Tao (南洋理工大学) 💡 毒舌点评亮点在于提出了首个系统性的MLLM能力融合基准和“无数据”的模态融合思路，为社区提供了重要的评估框架和基线。短板是论文标题中的“Omni-language model”在实验中仅限于简单的音视频问答融合，与真正意义上的通用全能模型差距较大，且核心方法OptMerge在理论层面更像是对现有技术的巧妙组合。 ...

Transformer-based End-to-End Control Filter Generation for Active Noise Control

📄 Transformer-based End-to-End Control Filter Generation for Active Noise Control #主动噪声控制 #Transformer #无监督学习 #实时处理 #模型比较 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Transformer | #无监督学习 #实时处理 | arxiv 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Ziyi Yang（论文未说明其具体所属机构）通讯作者：未说明作者列表：Ziyi Yang（未说明）、Zhengding Luo（未说明）、Yisong Zou（未说明）、Boxiang Wang（未说明）、Qirui Huang（未说明）、Woon-Seng Gan（未说明） 💡 毒舌点评这篇论文的核心工作是将Transformer“嫁接”到了固定滤波器主动噪声控制的框架中，并且通过巧妙的端到端可微设计，绕开了监督学习需要“标签”的难题，在真实噪声上取得了不错的改进，思路清晰，实验扎实。不过，模型参数量和计算量相比基线方法（CNN）显著增加，这对于追求低延迟、低功耗的嵌入式ANC设备来说是个不小的挑战，论文对此权衡的讨论略显不足，且未提供任何开源代码。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及了训练和测试所用数据集的具体描述（83,977个合成带限噪声样本，用于测试的真实噪声类型包括飞机、压缩机等），但未提供公开下载链接或开源协议。 Demo：论文中未提及Demo链接。复现材料：论文中提供了详细的训练配置、超参数、模型架构及评估结果，具体信息如下，但未提供额外的检查点文件或附录文档链接。数据集：83,977个1秒时长、13kHz采样率的合成带限噪声（覆盖20-1900 Hz）。划分：79,977训练样本，2,000验证样本，2,000测试样本。训练时在参考信号上添加了SNR 10dB的高斯噪声。测试用到真实噪声和合成噪声。声学路径：使用一个覆盖10-3000 Hz的合成声学路径，训练和测试中保持一致。模型配置：输入帧长度 L=13,000 样本，控制滤波器长度 N=512。 Conv1d前端：1输入通道，256输出通道，卷积核64，步长4，填充30；后接BatchNorm、ReLU、最大池化（步长4）。 Transformer编码器：d_model=256，8个注意力头，1层编码器，前馈维度1024，dropout 0.1，使用Pre-Norm。输出头：Linear(256->512)，ReLU，Dropout(0.1)，Linear(512->512)。总可训练参数：1,201,152。训练超参数：优化器Adam，权重衰减10⁻⁴，初始学习率5×10⁻⁴，批大小128，训练40轮。使用StepLR调度器（步长5，衰减因子0.5）。评估指标：噪声降低（NR）分贝数。每个测试噪声运行5秒，在最后1秒计算NR，报告平均NR。基线模型：FxNLMS（滤波器长度512，步长0.001）；GFANC（CNN co-processor，参数211,215，详见论文）。论文中引用的开源项目：未提及。补充信息 [模型架构] 补充：论文明确指出，Transformer编码器采用Pre-Norm（预归一化）设计。这是影响训练稳定性的关键设计选择，但未在分析中强调。同时，分析中提到输入帧L=13,000采样点，但未点明这对应于约1秒的音频（采样率13kHz），这是理解系统实时性的关键。 ...

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

📄 Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation #音频生成 #流匹配 #生成模型 #语音合成 #模型比较 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #生成模型 #语音合成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zengwei Yao (Xiaomi Corp., Beijing, China) 通讯作者：Daniel Povey (Xiaomi Corp., Beijing, China, dpovey@xiaomi.com) 作者列表：Zengwei Yao (小米公司), Wei Kang (小米公司), Han Zhu (小米公司), Liyong Guo (小米公司), Lingxuan Ye (小米公司), Fangjun Kuang (小米公司), Weiji Zhuang (小米公司), Zhaoqing Li (小米公司), Zhifeng Han (小米公司), Long Lin (小米公司), Daniel Povey (小米公司) 💡 毒舌点评论文创新性地将流匹配的稳定训练与GAN的细节增强能力结合，通过一个设计精巧的两阶段框架，实现了少步高保真音频生成，在质量和效率间取得了优异的平衡，这是一个扎实的工程优化工作。然而，其模型参数量（约79M）显著大于Vocos（13.5M）和RFWave（18.1M）等强基线，在资源敏感的部署场景下可能构成劣势。 ...

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 #数据集 #语音问答 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #语音问答 | #模型评估 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong WANG（香港中文大学）通讯作者：未说明（论文未明确指定通讯作者；通讯邮箱为第一作者邮箱：dingdongwang@link.cuhk.edu.hk）作者列表：Dingdong WANG (香港中文大学), Junan Li (香港中文大学), Jincenzi Wu (香港中文大学), Dongchao Yang (香港中文大学), Xueyuan Chen (香港中文大学), Tianhua Zhang (香港中文大学), Helen M. Meng (香港中文大学) 💡 毒舌点评亮点：该工作像一位严谨的语言学教授，为“只会听个响”的语音大模型们精心设计了一场覆盖音素、韵律、修辞等全方位的“期末统考”，诊断出当前模型普遍存在的“语音学文盲”和“韵律感知障碍”，指明了未来训练的重点补课方向。短板：考试形式局限于“单选题”，虽然高效，但无法评估模型在真实对话中灵活运用这些能力进行生成或交互的水平，有点“高分低能”的潜在风险。 🔗 开源详情代码：论文中未提及代码仓库链接。评估用的脚本或提示词模板未开源。模型权重：未提及。论文评估了多个现有模型，但未提供任何自己训练的模型。数据集：公开。论文明确提供了数据集获取链接：https://huggingface.co/datasets/ddwang2000/MMSU。 Demo：未提及。复现材料：论文在附录中详细说明了数据构建过程（自定义录音、人工审核）、任务定义、任务示例、错误案例分析以及使用的GPT提示词。这为理解基准构建和部分复现提供了丰富信息，但完整的评估流程复现仍需额外工作。论文中引用的开源项目：论文依赖并引用了多个开源数据集和模型，包括：CommonVoice, MELD, GigaSpeech, Switchboard, SLURP, SEAME, Fake-or-Real, RAVDESS, CoVoST 2, EDACC, VCTK, CHILDES, LogicBench等（完整列表见附录B）。评估的模型包括BLSP, Qwen-Audio, Kimi-Audio, Gemini, GPT-4o-Audio等众多开源和闭源SpeechLLMs。 📌 核心摘要问题：当前语音大模型（SpeechLLMs）的评估基准普遍存在三大缺陷：日常语音现象（如不流畅、语调变化、重音）覆盖不足、过度依赖合成语音导致不真实、以及评估设计缺乏语言学理论基础。这导致无法全面、真实地评估模型对语音的深层理解能力。方法核心：本文提出了MMSU，一个全新的、基于语言学理论的语音理解与推理基准。它系统性地整合了语音学、韵律学、修辞学、句法学、语义学和副语言学等理论，构建了包含感知（24个任务）和推理（23个任务）两大维度、共计47个任务的评估框架。数据包含5000个精心设计的音频-问题-答案三元组。创新与对比：与之前基准（如VoiceBench， ADU-Bench， MMAU）相比，MMSU的新颖之处在于：(a) 理论驱动：首次系统性地将语言学原理融入任务设计；(b) 全面覆盖：涵盖了前所未有的语音现象广度（从音素辨析到双关语理解）；(c) 数据真实性：主要采用真实世界录音（76.74%开源数据，13.44%专业录制），仅少量使用TTS补充。实验结果：论文对22个先进的SpeechLLMs和OmniLLMs进行了评估。关键结果如下表所示（数据摘自论文表3）：模型类别大小感知准确率(%) 推理准确率(%) 总体平均准确率(%) Human 人类基线 - 91.24 86.77 89.72 Gemini-1.5-Pro 闭源 - 46.10 76.16 60.68 Qwen2.5-Omni-7B 开源 7B 42.50 79.83 60.57 Kimi-Audio 开源 7B 43.52 76.03 59.28 GPT-4o-Audio 闭源 - 39.67 71.96 56.38 * 人类表现（89.72%）远超所有模型，最优模型Gemini-1.5-Pro（60.68%）与其存在近30%的差距，凸显了任务的挑战性。 * 开源模型（如Qwen2.5-Omni-7B）性能已接近甚至超越部分闭源模型（如GPT-4o-Audio）。 * 关键发现：模型在感知任务（尤其是音系学相关任务）上表现普遍较差，与人类“推理难于感知”的认知模式相反；噪声注入后性能下降轻微，证明模型确实在使用音频信号。图5展示了模型在噪声条件下的鲁棒性对比。实际意义：MMSU为社区提供了一个标准化、高难度的“体检工具”，能有效诊断出当前SpeechLLMs在精细语音感知和复杂语义推理上的短板（特别是音系处理能力），为下一代更类人的语音交互模型研发指明了优化方向。主要局限性：a) 基准主要覆盖英语和中英混合语音，对其他语言的评估能力未体现；b) 评估形式为固定选项的多选题，可能无法完全反映模型开放式生成或对话中的理解能力；c) 尽管追求真实，数据中仍有9.82%的合成语音。 🏗️ 模型架构本文提出的是基准测试（Benchmark），而非一个新的模型。因此，其“架构”指的是基准本身的层级结构设计。 MMSU的架构设计是一个三层的树状分类体系，旨在系统性地评估语音理解能力： ...

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #基准测试 #多模态模型 #音视频 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jack Hong（小红书）通讯作者：Shilin Yan（小红书）作者列表：Jack Hong（小红书）、Shilin Yan†（小红书）、Jiayin Cai（小红书）、Xiaolong Jiang（小红书）、Yao Hu（小红书）、Weidi Xie‡（上海交通大学） 💡 毒舌点评这篇论文的价值在于它像一盆冷水，明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远（最佳开源模型约25%，最强商用模型仅65.1%），而音频模态是普遍短板。不过，其评估形式局限于多选题，可能无法完全评估模型生成式理解和复杂推理的真实水平。 🔗 开源详情代码：论文提供了项目主页链接（https://jaaackhongggg.github.io/WorldSense），但未明确提及评估代码或数据处理脚本的开源仓库。模型权重：未提及。本文为评估基准，未提出新模型。数据集：已公开。WorldSense数据集可通过项目主页获取，采用CC BY-NC-SA 4.0许可证。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的评估提示词模板（附录A.4）、标注协议描述（3.3节和附录A.2）以及模型评估设置说明（4.1节和附录A.3），为复现评估结果提供了充分信息。论文中引用的开源项目：主要引用了作为数据源的FineVideo和MusicAVQA数据集，以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。论文中未提及开源计划：评估代码、质量控制自动化脚本。 📌 核心摘要问题：现有针对多模态大语言模型的评估基准大多忽略音频模态，或仅处理弱耦合的音视频信息，无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。方法核心：提出了WorldSense，首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频，设计了3,172个多选问答对，覆盖8大领域、67个子类和26种任务。新在哪里：与已有基准相比，WorldSense的创新在于：(i) 强调音视频模态的强耦合性，回答问题必须同时依赖两者；(ii) 覆盖真实世界多样化场景和音频类型（语音、环境声、音乐）；(iii) 采用高质量人工标注和严格的多重质量控制流程。主要实验结果：实验评估了多种主流多模态模型。结果显示，最佳开源多模态视频模型准确率仅为54.0%（Qwen3-Omni），而多数开源音视频模型表现接近随机猜测（约25%）。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明，加入原始音频相比仅用字幕能带来更大性能提升。实际意义：该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台，并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。主要局限性：基准采用多选题形式，在一定程度上限制了对模型生成式能力和开放性推理的评估；此外，尽管覆盖广泛，但视频和问题的分布可能仍无法完全代表所有真实世界场景。 🏗️ 模型架构本文的核心贡献是提出了一个评估基准（Benchmark），而非一个新的模型。因此，其“架构”指的是基准的设计框架。该框架主要由两部分构成：数据构建流水线和评估范式。 ...

BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations

📄 BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations #生物声学 #时频分析 #模型比较 #数据集 ✅ 7.5/10 | 前25% | #生物声学 | #时频分析 | #模型比较 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构基于当前提供的论文内容：第一作者：Tianyu Song (九州大学生物资源与生物环境科学研究生院) 通讯作者：Ton Viet Ta (九州大学农学院) 作者列表：Tianyu Song (九州大学生物资源与生物环境科学研究生院)，Ton Viet Ta (九州大学农学院)，Ngamta Thamwattana (纽卡斯尔大学信息与物理科学学院)，Hisako Nomura (九州大学农学院)，Linh Thi Hoai Nguyen (九州大学国际碳中和能源研究所) 💡 毒舌点评本文精准地瞄准了生物声学信号增强这一“蓝海”问题，并通过三个针对性设计的模块（MSDA， BHME， EAGC）有效提升了性能，其计算效率优势显著，体现了扎实的工程优化能力。然而，论文中的消融实验结果存在明显的指标矛盾（如CSCConv-AE+MSDA的SNR为负），且核心贡献主要是在现有语音增强框架上的适配与组合创新，缺乏根本性的理论或架构突破，代码和模型权重的缺失也削弱了其即时影响力。 ...

Do Foundational Audio Encoders Understand Music Structure?

📄 Do Foundational Audio Encoders Understand Music Structure? #音乐信息检索 #音乐理解 #预训练 #自监督学习 #模型比较 ✅ 7.0/10 | 前25% | #音乐信息检索 | #模型比较 | #音乐理解 #预训练学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Keisuke Toyama (索尼集团公司，日本) 通讯作者：未说明（论文中作者列表按顺序排列，但未明确标注通讯作者）作者列表： Keisuke Toyama (索尼集团公司，日本，共同第一作者) Zhi Zhong (索尼集团公司，日本，共同第一作者) Akira Takahashi (索尼集团公司，日本) Shusuke Takahashi (索尼集团公司，日本) Yuki Mitsufuji (索尼集团公司，日本；索尼AI，美国) 💡 毒舌点评这篇论文的亮点在于其“工具书”式的系统性与清晰度，为迷茫于众多音频基础模型的音乐结构分析研究者提供了一份可信赖的导航图，尤其是关于掩码语言建模与长形式音乐训练数据的结论颇具指导性。短板则在于其探索边界止步于“比较”，未能进一步将发现的“最佳实践”（如MLM+长上下文）整合成一个更强健的端到端模型，使得结论稍显“观察有余，建设不足”。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/sony/MSA-bench。模型权重：论文中未提及是否公开所评估的FAE的模型权重。这些权重需从各FAE原项目的开源仓库获取。数据集：评估使用了公开的Harmonix数据集。各FAE的预训练数据部分公开（如FMA, MSD, AudioSet），部分为私有（如MERT的160k小时音乐数据）。 Demo：论文中未提及在线演示。复现材料：提供了详细的实验设置（数据集划分、训练超参数、后处理方法）和评估代码，复现基础实验可行性高。引用的开源项目：论文引用了大量开源工具和模型，如mir_eval（评估库）、MusicFM、MERT、AudioMAE、PANNs、EnCodec、CLAP等。 📌 核心摘要本文旨在回答一个核心问题：当前主流的基础音频编码器（FAE）是否真正理解音乐的结构？为此，作者系统性地评估了11种不同类型的FAE（涵盖自监督学习、监督学习、跨模态学习等）在音乐结构分析（MSA）任务上的表现。研究发现，采用掩码语言建模（MLM）在长形式音乐数据上进行自监督预训练的模型（如MusicFM）表现最为出色，尤其在长上下文建模和捕捉语义特征方面优势明显。实验在Harmonix数据集上进行，以简单的线性探测后端评估FAE特征，结果显示MusicFM在边界检测（HR3F达63.91%）和功能预测（ACC达68.13%）上均达到最优。研究证明了FAE的预训练范式与训练数据选择对下游结构理解任务至关重要，并建议社区可重新审视基于此类FAE的生成模型评估指标。局限性在于仅使用了简单的线性后端，且未探索自回归模型等其他范式。 ...