音频大模型

Evaluating Compositional Structure in Audio Representations

📄 Evaluating Compositional Structure in Audio Representations #模型评估 #自监督学习 #音频大模型 #基准测试 #数据集 ✅ 7.0/10 | 前50% | #模型评估 | #自监督学习 | #音频大模型 #基准测试学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Chuyang Chen（纽约大学音乐与音频研究实验室）通讯作者：未说明作者列表：Chuyang Chen（纽约大学音乐与音频研究实验室）、Bea Steers（纽约大学音乐与音频研究实验室）、Brian McFee（纽约大学音乐与音频研究实验室）、Juan Bello（纽约大学音乐与音频研究实验室） 💡 毒舌点评亮点：论文敏锐地抓住了音频表示评估中“组合性”这一缺失的关键维度，并借鉴视觉与语言领域的思想，设计了A-COAT和A-TRE两个互补任务，首次为该领域提供了系统化的诊断工具。短板：所有评估均在精心控制的合成数据集（FM合成音）上进行，虽然保证了变量的纯净，但由此得出的结论能否平滑迁移到充满噪声、混响和复杂语义的真实声学场景，是一个巨大的问号。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/chuyangchencd/audio-compositionality。模型权重：论文中未提及提供作者训练的组合模型 g_θ 的权重。评估的是现有的预训练音频编码器（如PANNs， AudioMAE等），这些模型的官方权重需从各自原项目获取。数据集：根据论文描述，合成数据集已随代码仓库一同发布。 Demo：论文中未提及在线演示。复现材料：论文详细提供了数据生成流程、属性定义、平衡算法（Entrofy）、A-TRE模型训练的所有超参数（优化器、学习率、批大小、早停策略等），复现信息非常充分。论文中引用的开源项目：learnfm (FM合成器)， Entrofy (数据平衡算法)。 📌 核心摘要问题：现有的音频表示评估主要关注下游任务（如分类）的性能或少数泛化属性（如等变性），但忽略了与人类听觉感知密切相关的“组合性”（即用部分和组合规则表示复杂声景的能力）。方法核心：提出首个评估音频表示组合性的基准框架，包含两个任务：A-COAT（测试嵌入在声源加法变换下的代数一致性）和A-TRE（测试嵌入是否可由属性级的原始单元重构）。配套提供了大规模、受控的合成音频场景数据集。与已有方法相比新在哪里：这是首个专门针对音频表示组合性进行系统评估的工作。与现有的DCASE、HEAR等下游任务基准不同，它不直接测量任务性能，而是诊断表示的内在结构属性。主要实验结果：论文对比了多个主流音频编码器（如PANNs， CLAP， Whisper， AudioMAE， BEATs）。关键发现如Table 1所示：模型 (检查点) 架构训练目标参数量 A-COAT ↑ A-TRE ↑ PANNs (Cnn14) CNN 有监督分类(AudioSet) 81M 0.27 ± 0.24 0.93 ± 0.04 PaSST (PaSST-S) Transformer 有监督分类(AudioSet) 86M 0.26 ± 0.19 0.87 ± 0.05 CLAP (630k-AS-best) Transformer 对比音-文预训练 31M 0.39 ± 0.20 0.90 ± 0.05 Whisper (large-v2) Hybrid ASR 635M 0.32 ± 0.22 0.98 ± 0.01 AF-Whisper (AF3) Hybrid 对齐到LLM 635M 0.28 ± 0.16 0.89 ± 0.03 AudioMAE (AS-2M) Transformer 掩码自编码(自监督) 86M 0.41 ± 0.24 0.99 ± 0.01 BEATs (iter3) Transformer 迭代掩码预测(自监督) 90M 0.40 ± 0.21 0.97 ± 0.02 自监督模型（AudioMAE， BEATs）在两项任务上均表现强劲。BEATs在A-COAT任务中随着数据多样性（H_quad）增加性能反而提升，展现出独特的鲁棒性。模型间表现差异显著，证明两个任务能有效区分模型特性。实际意义：为音频表示学习研究提供了新的评估维度和基准工具，有助于理解和改进音频模型如何分解与组合声学信息，可能推动未来更鲁棒、可解释的音频模型的发展。主要局限性：评估完全基于合成数据集，缺乏在真实世界数据上的验证；合成属性的离散化（8类）可能无法捕捉连续声学空间的复杂性；任务设计聚焦于特定的加法和重构组合形式，可能未涵盖组合性的全部方面。 🏗️ 模型架构本文并非提出一个新的编码器模型，而是提出一个评估框架。其核心架构是两个评估任务（A-COAT和A-TRE）的设计。 ...

Exploring How Audio Effects Alter Emotion with Foundation Models

📄 Exploring How Audio Effects Alter Emotion with Foundation Models #音乐理解 #情感计算 #音频大模型 #模型评估 #预训练 ✅ 7.0/10 | 前50% | #音乐理解 | #预训练 | #情感计算 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Stelios Katsis（stelioskatsis12@gmail.com）通讯作者：未说明（论文提供了多位作者的邮箱，但未明确指定通讯作者）作者列表：Stelios Katsis（雅典国立技术大学），Vassilis Lyberatos（雅典国立技术大学），Spyridon Kantarelis（雅典国立技术大学），Edmund Dervakos（雅典国立技术大学），Giorgos Stamou（雅典国立技术大学） 💡 毒舌点评亮点在于研究设计的系统性和全面性，将音频效果的影响拆解为性能、预测、嵌入和真实场景四个层面进行剖析，堪称“模型听觉效应”领域的标准化审计流程。短板则是“浅层分类器探针”方法略显保守，更像是用一个简单模型去“问”复杂模型“你看到了什么”，难以挖掘基础模型内部更深层、更复杂的非线性表征变化。 🔗 开源详情代码：提供代码仓库链接：https://github.com/stelioskt/audioFX。论文明确声明代码、分析细节和完整实验结果均已公开。模型权重：未提及公开任何经过微调的模型权重或探针模型权重。数据集：论文使用的数据集（EMOPIA, DEAM, witheFlow）均为已公开的学术数据集。 Demo：未提及提供在线演示。复现材料：论文中提及GitHub仓库包含“完整实验结果”，但未详细说明是否包含训练脚本、环境配置文件（如requirements.txt）、预训练模型下载指南或详细的复现步骤文档。论文中引用的开源项目：主要引用了pedalboard库（用于应用音频效果），以及三个基础模型（MERT, CLAP, Qwen2-Audio）对应的官方开源实现。 📌 核心摘要问题：音乐制作中常用的音频效果（如混响、失真、调制）会如何系统性地影响人类（或AI）对音乐情感的感知？这一系统性联系尚存研究空白。方法核心：采用三个音频/音乐基础模型（MERT, CLAP, Qwen2-Audio）作为特征提取器，冻结其参数，后接可解释的浅层分类器（XGBoost）进行情感预测。通过施加不同程度的音频效果，探测模型性能、预测结果和嵌入空间的变化。新意：首次大规模、系统性地利用多种基础模型，结合控制实验（六种效果、多强度）与真实场景（艺术家效果链），探究音频效果对模型情感感知的“黑箱”影响，填补了从信号处理到情感计算链路中的关键一环。主要实验结果：如表1所示，随着效果强度增加，模型性能普遍下降。失真（Distortion）和相位器（Phaser）影响最大，例如在witheFlow数据集上，CLAP模型的F1分数因高强度失真下降了0.488。如图1所示，高失真会一致增加“愤怒”预测、减少“平静”预测。嵌入空间分析（图2）显示，CLAP和Qwen的嵌入随效果变化产生大位移，而MERT相对稳定。真实场景效果链（图3）引发更大、更连贯的嵌入偏移。实际意义：为音乐制作人、情感计算研究者提供了关于不同音频效果“情感倾向”的实证参考，并揭示了不同基础模型在音频鲁棒性和情感表征上的差异。主要局限性：研究仅针对三个特定基础模型，结论的普适性有待验证；嵌入空间分析主要依赖UMAP可视化，缺乏更定量的度量；所训练的浅层探针可能无法完全捕捉基础模型的全部复杂性。 🏗️ 模型架构本论文并非提出一个新的端到端架构，而是构建了一个探测性研究框架。其整体流程如下： ...

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS

📄 From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS #音频场景理解 #跨模态 #多任务学习 #音频大模型 ✅ 7.5/10 | 前25% | #音频场景理解 | #多任务学习 | #跨模态 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuhang Jia（南开大学计算机学院TMCC）通讯作者：Shiwan Zhao（南开大学计算机学院TMCC，Email: zhaosw@gmail.com）作者列表：Yuhang Jia（南开大学计算机学院TMCC）、Xu Zhang（南开大学计算机学院TMCC）、Yujie Guo（南开大学计算机学院TMCC）、Yang Chen（南开大学计算机学院TMCC）、Shiwan Zhao（南开大学计算机学院TMCC） 💡 毒舌点评这篇论文用一个直觉上更“温和”、更符合预训练目标的共性描述任务，漂亮地“击败”了看似更具挑战性但可能“用力过猛”的差异描述任务，证明在多模态大模型微调中，“顺毛捋”有时比“找不同”更有效且稳健。不过，其共性描述的生成规则（尤其是替换操作）依赖于简单的字面重叠，可能在面对更复杂、语义更抽象的音频对时显得脆弱，这限制了该方法向更通用方向发展的潜力。 🔗 开源详情代码：论文中未提及代码链接。模型权��：未提及是否公开微调后的模型权重。数据集：论文中提及构建了148，500对训练数据，但未提供数据集下载链接或公开计划。 Demo：未提及。复现材料：论文给出了训练的关键超参数（LoRA参数、优化器设置、批次大小等），但未提供完整的训练配置文件、数据样本或更详细的生成脚本。论文中引用的开源项目： Qwen2-Audio：作为基座模型（https://huggingface.co/Qwen/Qwen2-Audio-7B）。 Audit：用于数据构造的参考框架。 ms-swift：用于实现LoRA微调的工具库。论文中未提及完整的开源计划。 📌 核心摘要这篇论文旨在解决多模态大语言模型（MLLM）在采用音频差异描述（ADC）任务进行微调时，因输出与预训练目标不匹配而导致的语义差距和灾难性遗忘问题。为此，作者提出了一种新的训练范式——音频共性描述（ACC），该任务引导模型学习并描述成对音频之间的共享语义，而非差异。与基于音频混合的数据构建方法（源自音频编辑任务）相结合，ACC提供了一个与标准音频描述（AC）更一致的训练目标。主要实验结果表明，在Qwen2-Audio模型上，ACC在AudioCaps和Clotho基准测试上的多个指标（如CIDEr-D， SPIDEr）均显著优于仅用AC或ADC微调的方法。同时，ACC在下游语音和音乐任务（如人声分类、情感识别、乐器分类）上表现出更强的通用能力保留，避免了ADC导致的性能下降。该工作的核心意义在于，提出了一个更鲁棒的音频文本跨模态对齐训练策略，平衡了任务专用性能与模型通用性。其主要局限性在于，用于构建共性描述的规则（如替换操作中提取最长连续重叠短语）可能过于简单，无法处理所有复杂的语义对齐情况，且实验评估主要集中在描述任务，对更细粒度的跨模态推理能力验证不足。 ...

ICASSP 2026 - 音频大模型论文列表

ICASSP 2026 - 音频大模型共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 AR&D: A Framework for Retrieving and Describing Concepts for 6.5分前50% 📋 论文详情 🥇 AR&D: A Framework for Retrieving and Describing Concepts for Interpreting AudioLLMs ✅ 6.5/10 | 前50% | #音频大模型 | #自监督学习 | #模型评估 👥 作者与机构第一作者：Townim Faisal（澳大利亚机器学习研究所，阿德莱德大学；杜比实验室）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Townim Faisal（澳大利亚机器学习研究所，阿德莱德大学；杜比实验室） Ta Duc Huy（澳大利亚机器学习研究所，阿德莱德大学；杜比实验室） Siqi Pan（杜比实验室） Jeremy Stoddard（杜比实验室） Zhibin Liao（澳大利亚机器学习研究所，阿德莱德大学；计算机与数学科学学院） 💡 毒舌点评 ...

Improving Audio Question Answering with Variational Inference

📄 Improving Audio Question Answering with Variational Inference #音频问答 #变分推断 #音频大模型 #模型校准 #选择性预测 ✅ 7.5/10 | 前25% | #音频问答 | #变分推断 | #音频大模型 #模型校准学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Haolin Chen（Idiap Research Institute, Martigny, Switzerland; EPFL, Lausanne, Switzerland）通讯作者：未说明作者列表：Haolin Chen（Idiap Research Institute, EPFL） 💡 毒舌点评论文亮点在于成功地将高效的变分推断优化器（IVON）应用于音频问答任务，不仅略微提升了准确率，更显著改善了模型的校准特性和选择性预测能力，这对构建可信赖的AI系统非常实用。但略显单薄的是，其核心贡献本质上是“把一个已知的好工具用在一个新场景”，而非提出针对音频问答特性设计的新方法，创新维度稍显单一。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的模型权重（包括基线模型和微调后模型）。基线模型Qwen2.5-Omni本身可能是开源的（论文未确认）。数据集：使用了DCASE 2025 AQA数据集，论文未明确说明其是否公开以及如何获取，但DCASE挑战赛数据集通常公开。 Demo：未提及。复现材料：提供了非常充分的训练细节、配置和超参数设置，有利于复现。论文中引用的开源项目：主要引用了作为基础模型的 Qwen2.5-Omni [6] 和作为微调方法的 LoRA [25]。优化器 IVON [14] 本身也是一项开源工作。 📌 核心摘要要解决的问题：多模态大模型（如音频问答模型）在微调后常常过于自信（overconfident），预测置信度不能反映真实准确率（校准差），导致在需要可靠判断的风险敏感应用中不可信。方法核心：采用变分推断（VI）框架，使用高效的优化器IVON替代传统的AdamW，对大型音频语言模型Qwen2.5-Omni进行参数高效微调（LoRA）。IVON在训练中对模型权重的后验分布进行建模，从而捕获参数不确定性。与已有方法相比新在哪里：区别于传统优化器（如Adam）提供点估计，以及Monte Carlo Dropout等事后不确定性估计方法，IVON在训练过程中即内建了不确定性建模，且计算成本接近Adam。本文首次将其系统地应用于多模态音频问答任务。主要实验结果：在DCASE 2025 AQA数据集（BQA, TSQA, CQA三个子集）上，与AdamW基线相比：准确率（ACC）：IVON（均值或MC-8）平均从80.45%提升至80.97%。校准：ECE（越低越好）从16.2显著降至10.0（IVON MC-8），NLL和Brier分数同样改善。选择性预测：在拒答1%最不确定样本时（C@1%），覆盖准确率从3.8%（AdamW）大幅提升至19.5%（IVON MC-8），风险-覆盖曲线下面积（AUC）从7.4降至5.8。消融实验表明，增加蒙特卡洛（MC）采样数能持续改善校准，而调整后验分布的温度则在准确率和校准间存在权衡。实际意义：为多模态模型提供了更可靠的置信度估计，使其能在不确定时主动拒绝回答（选择性预测），从而提升系统在医疗、安防等风险敏感领域的应用安全性。主要局限性：研究仅限于多选题形式的音频问答（单次令牌预测），未验证在开放式生成任务（如自由问答、语音合成）中的效果。 🏗️ 模型架构本文未提出新的模型架构，而是将变分推断优化器应用于现有的大型音频语言模型（LALM）进行微调。 ...

Investigating Modality Contribution in Audio LLMs for Music

📄 Investigating Modality Contribution in Audio LLMs for Music #音频大模型 #模型评估 #可解释AI #音乐理解 #多模态模型 ✅ 6.5/10 | 前50% | #模型评估 | #可解释AI | #音频大模型 #音乐理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Giovana Morais（纽约大学音乐与音频研究实验室）通讯作者：未说明作者列表：Giovana Morais（纽约大学音乐与音频研究实验室）、Magdalena Fuentes（纽约大学音乐与音频研究实验室，Integrated Design & Media） 💡 毒舌点评亮点：首次将严谨的博弈论可解释性工具（MM-SHAP）引入音频大模型分析，量化了音频与文本模态的“功劳簿”，为“模型到底听没听”这个玄学问题提供了硬核分析框架。短板：整个研究建立在一个被后续工作指出“测试的是LLM推理而非音频感知”的基准（MuChoMusic）上，这好比用一把可能不准的尺子去精确测量，结论的可靠性打了折扣；同时，分析结论停留在“音频贡献低”的现象描述，未能深入揭示音频信息在模型内部是如何被利用或“遗忘”的机制。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/giovana-morais/2025_investigating_mmshap。模型权重：论文中未提及提供新的模型权重。分析使用了公开模型Qwen-Audio-Chat和MU-LLaMA。数据集：分析使用公开的MuChoMusic基准数据集。 Demo：论文提到提供了交互式图表演示页面，但未给出具体链接。复现材料：论文中提供了代码和基于公开模型与数据的分析框架，但缺乏详细的训练/评估超参数配置文件和分步指南。引用的开源项目：依赖shap库进行Shapley值计算；依赖Qwen-Audio和MU-LLaMA的官方代码库。 📌 核心摘要问题：音频大语言模型（Audio LLMs）声称能理解音频，但近期基准测试表明其性能可能过度依赖文本推理，音频模态是否被有效利用存疑。方法核心：将MM-SHAP（一种基于Shapley值、与性能无关的度量）适配到音频领域，通过掩码音频波形和文本令牌来量化计算每个模态对模型输出的贡献度（A-SHAP, T-SHAP）。新方法与创新点：首次将MM-SHAP框架应用于音频大模型，提出了针对音频的动态掩码策略，并将分析扩展到生成式任务（通过衡量答案token的对数变化）。主要实验结果：在MuChoMusic基准上对比了Qwen-Audio和MU-LLaMA。发现性能更好的Qwen-Audio反而更依赖文本（A-SHAP约0.23），而MU-LLaMA模态利用更均衡（A-SHAP约0.50）。定性分析显示，即使整体音频贡献低，模型也能在特定token（如“铃声”）上正确定位相关音频片段。模型实验设置准确率 A-SHAP MU-LLaMA MC-PI 0.30 0.50 ± 0.02 MC-NPI 0.32 0.47 ± 0.02 QwenAudio MC-PI 0.44 0.23 ± 0.02 MC-NPI 0.47 0.21 ± 0.02 表1：两个模型在不同实验设置下的准确率和平均音频模态贡献度（A-SHAP）。 MM-SHAP计算过程示意图图1：MM-SHAP计算流程示意图。通过掩码所有可能的输入组合（近似为随机排列），并计算基础答案（未掩码推理）的对数变化来平均得到Shapley值。定性分析示例图2：QwenAudio定性分析示例。展示了对于输出token“bell”，输入文本和音频各区域的Shapley值贡献，绝对值高的区域（深色）对应模型认为重要的特征。 ...

Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time

📄 Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time #音频问答 #音频分类 #音频大模型 #推理时调整 ✅ 7.5/10 | 前25% | #音频问答 | #推理时调整 | #音频分类 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hangyu Du（新加坡国立大学，设计与工程学院）通讯作者：Jingxing Zhong（福州大学，明智国际工程学院）作者列表：Hangyu Du（新加坡国立大学，设计与工程学院），Jingxing Zhong（福州大学，明智国际工程学院）（论文注明两位作者贡献相等）。 💡 毒舌点评亮点：精准地诊断出ALLMs解码时“听着听着就忘了音频”的顽疾，并用一个免训练、近乎零开销的“解码时注意力微调”插件（AttnAdapter）显著缓解了这个问题，效果立竿见影，实用性很强。短板：方法更像是对症下药的“经验性工程”，虽然能“work”，但对于注意力漂移的根本原因（为何系统令牌会成为sink？为何音频注意力会衰减？）缺乏更深层次的理论或神经机制层面的剖析，略显“知其然而不知其所以然”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：实验使用公开的MMAU-mini和AIR-Bench数据集，但论文中未提及数据集获取方式或自有数据。 Demo：未提及。复现材料：提供了Algorithm 1伪代码和完整的超参数设置，足以复现核心方法。但缺乏具体代码实现和运行脚本。引用的开源项目：论文未提及直接依赖的开源项目代码。 📌 核心摘要要解决什么问题：本文发现并研究了音频大语言模型（ALLMs）在自回归解码过程中普遍存在的“注意力路由退化”现象。随着解码进行，模型对音频输入（Audio Tokens）的注意力会系统性衰减，转而过度依赖语言先验和早期生成的“汇聚”令牌，导致回答偏离输入音频，产生幻觉。方法核心是什么：提出AttnAdapter，一个训练无关、可插拔的模块。它在解码的每一步，对注意力计算中的原始对数几率（logits）进行分段、时间感知的乘性重缩放。具体包含三个组件：(1) 系统令牌汇聚抑制，(2) 音频关键点时序增强，(3) 局部输出窗口稳定。与已有方法相比新在哪里：与现有方法（如EAH、MemVR）相比，AttnAdapter的特点是：完全在解码时操作，无需训练或修改模型架构；设计上明确针对音频模态的序列性、密集性特点，提出时间感知的增强策略；并且组合了多种干预（抑制、增强、稳定）以协同工作。主要实验结果如何：在MMAU-mini和AIR-Bench两个基准上，AttnAdapter为LLaMa-Omni、Qwen-Omni和Audio Flamingo 3三个模型带来了稳定的性能提升。在LLaMa-Omni上，MMAU-mini平均准确率从0.71提升至0.85（+14%），AIR-Bench平均准确率从0.69提升至0.82（+13%）。在Qwen-Omni上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.71提升至0.84（+13%）。在Audio Flamingo 3上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.70提升至0.83（+13%）。所有方法中，AttnAdapter均取得了最高的分数，尤其在“混合音频”子任务上改进明显。实际意义是什么：提供了一个即插即用、计算开销极低（延迟增加<2%）的解决方案，可以增强现有ALLMs的音频接地能力，使其在长序列对话和推理中能持续“听”音频，减少基于文本先验的幻觉，提升在音频问答、分析等实际应用中的可靠性和准确性。主要局限性是什么：(1) 方法的有效性依赖于经验调优的超参数（σ, η, g, w, β），对于新模型或任务可能需要重新搜索。(2) 论文主要关注准确率提升，对模型生成文本的流畅性、连贯性等质量指标的详细分析不足。(3) 机制解释偏经验性，缺乏对ALLMs内部信息流动的深层理论分析。 🏗️ 模型架构本文提出的AttnAdapter并非一个完整的端到端模型，而是一个推理时的插件模块，旨在修改现有基于解码器的音频大语言模型（ALLMs）在解码阶段的注意力计算过程。 ...

Modeling Inter-Segment Relationships in Speech for Dementia Detection with Audio Spectrogram Transformers and Graph Attention Networks

📄 Modeling Inter-Segment Relationships in Speech for Dementia Detection with Audio Spectrogram Transformers and Graph Attention Networks #语音生物标志物 #音频大模型 #图神经网络 #预训练 #音频分类 ✅ 7.0/10 | 前25% | #语音生物标志物 | #图神经网络 | #音频大模型 #预训练学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Raphael Anaadumba (University of Massachusetts Lowell, Richard A. Miner School of Computer and Information Sciences) 通讯作者：Raphael Anaadumba (根据“Corresponding author”标注) 作者列表：Raphael Anaadumba (University of Massachusetts Lowell), Nazim A. Belabbaci (University of Massachusetts Lowell), Anton Kovalev (University of Massachusetts Lowell), Mohammad Arif Ul Alam (University of Massachusetts Lowell) 💡 毒舌点评本文巧妙地将图注意力网络引入语音病理分析，首次明确建模“语音段”间的图状关系以捕捉话语结构异常，这一视角确实比简单池化或纯序列模型更贴近临床认知，并在MCI检测上取得了亮眼提升。然而，实验规模局限于两个英语数据集，且未开源代码，使得这一新颖方法在更广泛场景下的有效性和可复现性大打折扣。 ...

MSF-SER: Enriching Acoustic Modeling with Multi-Granularity Semantics for Speech Emotion Recognition

📄 MSF-SER: Enriching Acoustic Modeling with Multi-Granularity Semantics for Speech Emotion Recognition #语音情感识别 #多模态模型 #预训练 #音频大模型 #语音大模型 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #预训练 #音频大模型学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Haoxun Li（中国科学院大学杭州高等研究院）通讯作者：Leyuan Qu（中国科学院大学杭州高等研究院），Taihao Li（中国科学院大学杭州高等研究院）作者列表：Haoxun Li（中国科学院大学杭州高等研究院），Yuqing Sun（中国科学院大学杭州高等研究院），Hanlei Shi（中国科学院大学杭州高等研究院），Yu Liu（中国科学院大学杭州高等研究院），Leyuan Qu（中国科学院大学杭州高等研究院），Taihao Li（中国科学院大学杭州高等研究院） 💡 毒舌点评这篇论文非常聪明地识别并尝试解决“全局文本转写在情感识别中‘一视同仁’且‘肤浅’”的痛点，其提出的多粒度语义融合（尤其是LES和ES）和FM-MOE架构设计确实新颖且有效，实验也扎实。不过，其创新更多是“组合拳”式的工程优化，对引入的Kimi-Audio生成的“扩展语义”的鲁棒性和依赖性讨论不足，且在缺乏开源支持的情况下，复现其复杂的多模型流水线颇具挑战。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开的MSP-Podcast v1.12和IEMOCAP数据集，但论文未说明如何获取其处理后的版本。 Demo：未提供在线演示。复现材料：论文中给出了较详细的模型架构、超参数（如学习率、批大小、损失函数、模型维度）和训练设置（硬件），但缺乏完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：明确提到了使用Whisper-ASR进行语音识别，RoBERTa-Large作为文本编码器，WavLM-Large作为声学编码器，Kimi-Audio生成扩展语义。这些都依赖外部开源或公开发布的模型。总结：论文中未提及开源计划。 📌 核心摘要问题：现有基于文本的语音情感识别方法大多仅使用全局文本转写，存在两大缺陷：一是忽略句子内部不同部分的强调对情感表达的影响；二是仅包含表层词汇语义，缺乏更高层次的解释性信息（如场景、意图、副语言特征）。方法核心：提出MSF-SER框架，以声学特征（WavLM-Large）为主干，引入三个互补粒度的文本语义进行增强：局部强调语义（LES，通过LEMF框架提取强调片段）、全局语义（GS，通过Whisper转录）和扩展语义（ES，由Kimi-Audio生成）。通过门控融合自适应整合LES与GS，再通过提出的FM-MOE（FiLM调制的轻量级混合专家）与声学特征进行跨模态交互。创新之处：首次将“局部强调”和“扩展解释”两种新粒度的语义信息系统性地融入语音情感识别；设计了FM-MOE架构，利用FiLM对声学表征进行维度级调制，并允许不同情感维度（V/A/D）自适应地选择融合不同的语义专家。实验结果：在MSP-Podcast开发集上，完整模型（MSF-SER）的平均一致性相关系数（CCC）达到0.692，优于基线（0.659）和所有消融变体。在IEMOCAP数据集的5折交叉验证中，平均CCC达到0.638，超越了多个强基线模型。关键消融实验证明，三种语义特征和FM-MOE融合策略均对性能有显著贡献。模型/方法数据集 CCC_V CCC_A CCC_D CCC_avg Baseline MSP-Podcast Dev 0.725 0.660 0.592 0.659 MSF-SER (Full) MSP-Podcast Dev 0.759 0.685 0.631 0.692 SERNC Top-Model MSP-Podcast Test (Ref) 0.758 0.683 0.615 0.685 Baseline [21] IEMOCAP 0.552 0.678 0.583 0.604 MSF-SER IEMOCAP 0.632 0.680 0.601 0.638 实际意义：通过更精细、更丰富的语义信息来引导声学建模，有效提升了语音情感识别的准确性，对需要理解人类细微情感状态的应用（如智能助手、心理健康监测、人机交互）有积极意义。主要局限性：系统依赖外部的大规模预训练模型（WavLM, RoBERTa, Whisper, Kimi-Audio），增加了计算和部署成本；扩展语义（ES）的质量受限于Kimi-Audio的能力，且可能引入噪声或偏差；论文未提供代码和模型，可复现性受限。 🏗️ 模型架构 MSF-SER的整体架构如图1 (pdf-image-page4-idx0)所示，是一个“声学主干 + 多粒度语义辅助”的双流融合框架。 ...

Multimodal LLMs as Expert Speech Annotators: Acoustic Macro-Descriptors for Parkinson's Detection

📄 Multimodal LLMs as Expert Speech Annotators: Acoustic Macro-Descriptors for Parkinson’s Detection #语音生物标志物 #多模态模型 #音频大模型 #零样本 #数据集 ✅ 6.5/10 | 前50% | #语音生物标志物 | #多模态模型 | #音频大模型 #零样本学术质量 4.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：David Ortiz-Perez（阿利坎特大学计算机技术系，INESC-ID）通讯作者：Catarina Botelho（INESC-ID，当前就职于Sword Health）作者列表：David Ortiz-Perez（阿利坎特大学计算机技术系，INESC-ID）、Catarina Botelho（INESC-ID，当前就职于Sword Health）、Anna Pompili（INESC-ID）、Alberto Abad（里斯本高等技术学院，INESC-ID）、Jose Garcia-Rodriguez（阿利坎特大学计算机技术系） 💡 毒舌点评亮点：论文提出了“声学宏观描述符”这一可解释的中间层概念，巧妙地将MLLM的输出从不稳定的直接诊断转化为结构化的专家模拟评分，并证明了这种“模拟专家”的方式在PD分类上甚至可以超越真实专家标注的性能（Ultravox模型80.47% UAR vs 专家78.93% UAR）。短板：研究主要局限在两种西班牙语数据集上，对于模型在其他语言、方言及不同语音任务上的泛化能力未做验证；且对模型为何能产生有效但“不像”专家的描述符（如Ultravox）缺乏深入的机制分析。 🔗 开源详情代码：论文提供了补充材料的代码仓库链接：https://github.com/davidorp/ICASSP25-Supp-Material。模型权重：未提及。本研究使用的是公开发布的预训练MLLM（Ultravox, Qwen2, Phi4, GPT-4o），未进行微调，因此无需提供自有模型权重。数据集：使用了公开数据集NeuroVoz（论文中提供了引用和详细描述）和PC-GITA（同样提供了引用），但论文中未直接提供下载链接。 Demo：未提及。复现材料：论文正文和补充材料应包含了核心的提示词（Prompt）模板、评估指标计算方法、分类器设置等复现所需的关键信息。论文中引用的开源项目：使用了scikit-learn作为机器学习分类器实现库。 📌 核心摘要问题：帕金森病（PD）的语音评估依赖专家，具有主观性且难以扩展；直接用多模态大语言模型（MLLM）进行疾病诊断则不稳定且缺乏可解释性。方法核心：提出将MLLM作为“专家语音标注员”，通过精心设计的提示，引导模型直接从语音中输出14个高阶、可解释的“声学宏观描述符”（对应GRBAS和VAF专家评估维度），再将这些描述符作为特征输入传统机器学习分类器进行PD检测。创新点：与直接诊断或使用低阶声学特征的方法不同，本文创新性地利用MLLM模拟临床专家的感知评估流程，生成语义明确的特征，增强了可解释性，并探索了不同MLLM在该任务上的能力差异。主要实验结果：在NeuroVoz数据集上，GPT-4o与专家评分的一致性最高（Gwet‘s AC1 = 0.643）。然而，在PD分类任务中，Ultravox模型提取的描述符取得了最佳性能，达到80.47%的UAR（加权平均召回率），超过了使用真实专家标注（最高78.93%）。跨数据集（PC-GITA）评估显示，Ultravox提取的描述符仍保持了较好的鲁棒性。模型 GRBAS UAR (%) VAF UAR (%) All UAR (%) 人类专家 62.86 78.93 77.02 Ultravox 78.24 79.56 80.47 GPT-4o 71.15 71.90 71.14 Phi-4 57.47 63.99 72.71 实际意义：提供了一种可扩展、可解释的语音生物标志物提取范式，有望辅助临床筛查，并推动语音在神经退行性疾病诊断中的应用。主要局限性：研究语种单一（西班牙语）；评估的语音任务有限（主要是句子朗读）；模型作为“黑盒”标注员的内在机制未被充分探究；未与当前最先进的端到端PD检测模型进行直接对比。 🏗️ 模型架构本文的核心是利用现成的多模态大语言模型（MLLM）作为“感知评估专家”，其本身并非提出新的网络架构。整体流程可分为两个阶段： ...