Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models

📄 Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models #语音情感识别 #数据增强 #音频大模型 #多模态模型 #低资源 ✅ 6.5/10 | 前50% | #语音情感识别 | #数据增强 | #音频大模型 #多模态模型 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Wenda Zhang (University of Melbourne, Melbourne, Australia) 通讯作者:Hongyu Jin (University of Melbourne, Melbourne, Australia) (论文中标注为*Equal contribution) 作者列表: Wenda Zhang (University of Melbourne) Hongyu Jin (University of Melbourne) Siyi Wang (University of Melbourne) Zhiqiang Wei (Xi’an Jiaotong University, Xi’an, China) Ting Dang (University of Melbourne) 💡 毒舌点评 这篇论文的核心亮点在于它首次系统性地将音频语言模型(ALM)生成的合成标注引入到情感分布估计任务中,并设计了一套包含数据增强(DiME-Aug)与评估的完整流程,为解决情感标注稀疏问题提供了新颖且可扩展的思路。然而,其短板也很明显:ALM生成的“合成感知代理”在面对人类本身就存在高度分歧的模糊情感时效果甚微,这恰恰是AER任务最具挑战性的部分,使得该方法目前更像是对低模糊区域的“锦上添花”,而非解决核心矛盾的“雪中送炭”。 ...

2026-04-29

Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition

📄 Selective Hub Fusion with Modality-Heterogeneous Experts for Multimodal Emotion Recognition #多模态模型 #混合专家 #跨模态 #情感识别 ✅ 6.5/10 | 前25% | #多模态模型 | #混合专家 | #跨模态 #情感识别 学术质量 8.0/7 | 选题价值 6.0/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Huan Zhao(湖南大学计算机科学与电子工程学院) 通讯作者:Kehan Wang(湖南大学计算机科学与电子工程学院,邮箱:wangkh@hnu.edu.cn) 作者列表:Huan Zhao(湖南大学计算机科学与电子工程学院),Ling Xiong(湖南大学计算机科学与电子工程学院),Kehan Wang(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 这篇论文的“选择性Hub融合”机制确实巧妙地解决了直接跨模态注意力带来的计算冗余和噪声放大问题,像一个精准的路由器;但其“模态异质专家”的设计相对直观,主要差异在于使用1D卷积处理音频、2D卷积处理视觉,对于是否真正深刻捕捉了模态特异性情感模式的论证稍显薄弱,更像是一种工程上的有效组合而非理论洞察。 📌 核心摘要 要解决什么问题:现有方法在进行多模态情感识别时,直接融合音频和视觉模态会引入大量冗余和噪声(如环境噪音、背景运动),同时传统方法忽略了不同模态对情感识别的差异性贡献,导致单模态情感特征提取不足。 方法核心是什么:提出SH-MHMoE模型,包含两个核心模块:a) 选择性Hub中介融合(SHMF):引入少量(L=8)容量受限的Hub token作为中间枢纽,所有跨模态信息交换都必须经过这些Hub,通过路径约束过滤冗余信息。b) 多模态异构混合专家(MHMoE):为文本、音频、视觉分别设计结构不同的专家网络(MLP、1D卷积、2D卷积),并通过稀疏门控网络激活少量专家,以增强每个模态独特的情感表达能力。 与已有方法相比新在哪里:a) 相比直接跨模态注意力、特征拼接等融合方式,SHMF通过Hub token实现了更高效、低冗余的信息交换。b) 相比使用同质专家(如所有模态都用FFN)的MoE方法,MHMoE针对不同模态信号特点设计了异构专家,更符合归纳偏置。 主要实验结果如何:在CMU-MOSI数据集上,SH-MHMoE在ACC-2(88.2%)、F1(88.1%)上超越所有对比方法,MAE(0.691)最低;在CMU-MOSEI数据集上,Corr(0.798)、ACC-2(87.6%)、F1(87.5%)、ACC-7(56.1%)均为最佳,MAE(0.516)次佳。 关键实验对比表(CMU-MOSI): 模型 MAE ↓ Corr ACC-2% F1% MMA 0.693 0.803 86.4 86.4 Ours 0.691 0.797 88.2 88.1 关键实验对比表(CMU-MOSEI): 模型 MAE ↓ Corr ACC-2% F1% — — — — — AcFormer 0.531 0.786 86.5 85.8 Ours 0.516 0.798 87.6 87.5 消融实验(CMU-MOSEI):移除SHMF或MHMoE模块都会导致性能明显下降,验证了模块有效性。替换SHMF为其他融合方式或MHMoE为同构专家,性能均不如原设计。 实际意义是什么:为多模态情感识别提供了一个更鲁棒、高效的融合框架,能够抑制噪声并挖掘各模态特有情感信息,对提升人机交互、心理健康分析等应用的性能有直接帮助。 主要局限性是什么:论文未讨论模态缺失情况下的鲁棒性;Hub token的具体选择和更新机制还有优化空间;异构专家的设计更多是基于模态信号特性的直观工程选择,缺乏更深入的理论分析。 🏗️ 模型架构 整体架构(参考图1a):输入为文本(Xt)、音频(Xa)、视频(Xv)特征,首先通过一个选择性Hub中介融合(SHMF)模块进行跨模态信息交互,生成增强后的各模态特征(̂Xt, ̂Xa, ̂Xv)。然后,这些特征分别输入多模态异构混合专家(MHMoE)模块进行进一步的情感特异性增强。最后,将增强后的各模态特征与Hub token连接,送入分类器得到最终预测。 ...

2026-04-29

Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning

📄 Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning #音频分类 #零样本学习 #多模态模型 #对比学习 #音视频 ✅ 7.0/10 | 前25% | #音频分类 #零样本学习 | #多模态模型 #对比学习 | #音频分类 #零样本学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Siteng Ma(苏州大学) 通讯作者:Wenrui Li(哈尔滨工业大学) 作者列表:Siteng Ma(苏州大学)、Wenrui Li(哈尔滨工业大学)、Haocheng Tang(北京大学)、Yeyu Chai(哈尔滨工业大学)、Jisheng Chu(哈尔滨工业大学)、Xingtao Wang(哈尔滨工业大学) 💡 毒舌点评 本文的亮点在于将自适应模态加权、语义引导的变分生成与语义对齐的对比学习巧妙融合,形成了一个逻辑自洽的统一框架来解决GZSL中的核心矛盾,并在两个基准数据集上取得了SOTA。然而,其短板在于对SVG模块中具体网络结构的描述较为简略,且未提供任何开源代码或详细的超参数搜索过程,使得完全复现该工作的细节变得困难。 📌 核心摘要 这篇论文旨在解决音频-视觉广义零样本学习(GZSL)中因模态竞争和类间分布重叠导致的对可见类过度偏置问题。核心方法是提出一个名为SGPAN的多模态框架,它集成了三个关键组件:1)自适应模态重加权(AMR),动态调整音频和视觉分支的损失权重以平衡学习;2)语义引导变分生成(SVG),利用文本语义条件化的VAE生成伪特征,以扩大类内覆盖并缓解类别混淆;3)语义对齐对比损失(SACL),在投影空间中对齐跨模态特征并扩大类间距。与已有方法相比,新在将特征生成、动态模态平衡与对比学习在同一个端到端框架内协同优化。实验表明,SGPAN在UCF-GZSL和VGGSound-GZSL数据集上的调和平均精度(HM)上取得了当时最优的结果。该工作的实际意义在于为开放世界下的多模态视频理解提供了一个更鲁棒的零样本识别方案。主要局限性包括模型性能对语义标签的质量以及batch统计量的依赖。 🏗️ 模型架构 模型的整体架构如图1所示。SGPAN是一个基于交叉注意力的多模态框架,其输入是来自预训练骨干网络的音频和视觉特征。 输入与跨模态特征融合:音频特征 x_a 和视觉特征 x_v 分别经过编码器得到初始嵌入 ϕ_a 和 ϕ_v。随后,这些嵌入通过一个基于Transformer的交叉注意力模块进行交互,捕捉互补信息,得到注意力输出 ϕ_att^a 和 ϕ_att^v。原始嵌入与注意力输出通过残差连接相加,并投影到共享语义空间,得到最终的模态表征 θ_a 和 θ_v。推理时,通过最近邻搜索将表征与类语义嵌入匹配进行预测。 语义引导变分生成(SVG):该模块旨在为每个类生成伪特征。对于类嵌入 w,首先通过一个投影层得到 ˆw,然后经过语义引导门控注意力模块(SGAM)进行精炼得到 ˜w。接着,对于每个模态(音频/视觉),一个条件VAE将 ˜w 映射为潜在分布 (μ_m, log σ²_m),并采样得到潜在变量 z_m。解码器 D_m 将 z_m 解码为伪特征 ˆx_m。引入受控噪声 δ 以增加生成多样性。 损失函数集成:模型的总损失由四部分组成:跨注意力损失 l_cr、自适应模态重加权损失 l_AMR、语义对齐对比损失 l_s 和生成损失 l_g。这些损失共同优化整个框架。 图1:SGPAN的整体结构图。展示了从输入特征提取、跨模态注意力融合、到三个核心模块(AMR、SVG、SACL)的集成,以及最终的预测过程。 ...

2026-04-29

Session-Level Spoken Language Assessment with A Multimodal Foundation Model Via Multi-Target Learning

📄 Session-Level Spoken Language Assessment with A Multimodal Foundation Model Via Multi-Target Learning #语音评估 #语音大模型 #多任务学习 #多模态模型 #端到端 ✅ 7.5/10 | 前25% | #语音评估 | #多任务学习 | #语音大模型 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hong-Yun Lin 通讯作者:未说明 作者列表:Hong-Yun Lin, Jhen-Ke Lin, Chung-Chun Wang, Hao-Chien Lu, Berlin Chen(均来自Department of Computer Science and Information Engineering, National Taiwan Normal University) 💡 毒舌点评 亮点:该论文最漂亮的一手是将“评估人类评估过程”这个理念贯彻到底——不是去分数个片段再拼接,而是设计一个能“一口气”看完考生整个作答会话的模型,这从架构层面就对齐了人类考官的认知习惯。短板:虽然方法在特定基准上效果拔群,但这种高度定制化的会话级评估模型,在面对更开放、更多样化的口语任务或语言时,其泛化能力和实际部署的灵活性尚未得到证明,更像一个“专用冠军”而非“通用强者”。 📌 核心摘要 问题:现有的自动口语语言评估(SLA)系统要么采用易产生误差传播的级联管道,要么使用只能处理短时音频的端到端模型,无法像人类考官那样整合整个测试会话的语篇级证据进行综合评分。 方法核心:提出一种基于多模态基础模型(Phi-4-Multimodal)的会话级评估框架。该模型将整个测试会话(包含多个音频响应)格式化为对话序列一次性输入,通过多任务学习(MTL)直接联合预测四个部分的分数和一个总体分数。同时,引入了一个并行的、基于冻结Whisper模型的“声学能力先验”(APP),将其作为前缀令牌注入模型,以显式增强对流利度、停顿等副语言特征的感知。 与已有方法相比新在哪里:新在建模范式上:1)实现了真正的会话级、端到端、单次前向传播的评估,避免了分段评估和后期融合带来的误差。2)提出了声学先验注入机制,将外部声学模型的知识作为可学习的先验融入多模态大模型,无需手工特征工程。 主要实验结果:在Speak & Improve 2025基准测试中,所提出的Phi-4-MTL-APP模型取得了最优性能,总体RMSE为0.360,皮尔逊相关系数(PCC)为0.827。它超越了当时最强的集成系统(Perezoso, RMSE 0.364)和自己的基线系统(Phi-4-CTG, RMSE 0.412)。消融实验表明,MTL比CTG(RMSE 0.412)误差降低超过12%,而添加APP模块在长语音部分(P3/P4)带来了进一步的稳定提升。 实际意义:该研究为计算机辅助语言学习(CALL)提供了一个更准确、更接近人类评估过程、且模型更紧凑(单模型)的自动口语评分方案,有助于降低对人工评分的依赖。 主要局限性:1)模型的性能验证局限于特定的Speak & Improve基准测试,其跨任务、跨语言的泛化能力有待进一步研究。2)虽然承诺开源,但论文发表时未提供代码,依赖于特定的商业基础模型(Phi-4)和数据集。 🏗️ 模型架构 该模型采用“单会话输入,多分数输出”的统一架构(如图1b “Unified” 所示),主要由三个组件构成: ...

2026-04-29

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

📄 SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models #音频问答 #知识蒸馏 #多模态模型 #迁移学习 #音视频 ✅ 7.5/10 | 前25% | #音频问答 | #知识蒸馏 | #多模态模型 #迁移学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中作者列表排序未明确指定第一作者) 通讯作者:未说明 作者列表:Qiaolin Wang(Columbia University, New York, NY, USA)、Xilin Jiang(Columbia University, New York, NY, USA)、Linyang He(Columbia University, New York, NY, USA)、Junkai Wu(University of Washington, Seattle, WA, USA)、Nima Mesgarani(Columbia University, New York, NY, USA) 💡 毒舌点评 亮点在于巧妙地利用“视觉可听”的假设,将强大的视觉语言模型(LVLM)作为“免费的”教师来生成音频推理数据,从而绕过了音频链式思考(CoT)数据稀缺的瓶颈,思路清晰且实用。短板则是这一核心假设存在天然局限,导致生成的推理链可能基于视觉臆测而非真实音频内容(论文中也承认了语音、音乐任务性能下降),且方法的最终效果高度依赖外部强大LVLM和验证模型的能力,并非完全独立。 ...

2026-04-29

SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training

📄 SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training #音频检索 #音频分类 #多模态模型 #预训练 #对比学习 🔥 8.0/10 | 前25% | #音频检索 | #预训练 | #音频分类 #多模态模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Xinhao Mei(Meta) 通讯作者:未说明 作者列表:Xinhao Mei(Meta)、Gael Le Lan(Meta)、Haohe Liu(Meta)、Zhaoheng Ni(Meta)、Varun Nagaraja(Meta)、Yang Liu(Meta)、Yangyang Shi(Meta)、Vikas Chandra(Meta) 💡 毒舌点评 SLAP在CLAP的“变长音频处理”和“单阶段多目标训练”两个痛点上给出了工程与学术结合得相当漂亮的方案,尤其序列打包技巧很实用。但宣称的“109M数据”优势建立在未公开的私有数据集上,这削弱了其结论的可复现性和说服力,让后续研究者难以直接验证或跟进其“规模至上”的逻辑。 📌 核心摘要 要解决什么问题:当前对比语言-音频预训练(CLAP)模型存在三大局限:训练数据规模相对较小(通常百万级)、音频输入时长固定(通常≤10秒)且需要填充/截断、以及全局对比学习损失阻碍了密集细粒度音频特征的学习。 方法核心是什么:提出SLAP框架,通过三点解决上述问题:(1) 将预训练规模扩展至1.09亿音频-文本对;(2) 重新设计Transformer音频编码器,支持最长30秒的变长音频输入,并采用混合注意力机制与序列打包技术高效处理;(3) 统一对比损失、自监督掩码建模损失和字幕生成损失到单阶段训练中。 与已有方法相比新在哪里:相比先前工作,SLAP首次将音频-文本预训练推向亿级数据规模;其音频编码器从头训练,原生支持变长输入,避免了填充/截断;其统一的单阶段多目标训练管道简化了流程(不同于多阶段方法),旨在同时学习全局对齐和局部密集特征。 主要实验结果如何: 音频文本检索(Table 1):在AudioCaps和Clotho数据集上,无论是零样本还是微调设置,SLAP均达到了SOTA性能。例如,在微调后,AudioCaps文本到音频检索的R@1达到47.5%,Clotho的音频到文本检索R@1达到36.8%。 零样本音频分类(Table 2):在ESC-50、CREMA-D和GTZAN数据集上,通过在WavCaps上微调后,SLAP取得了新的SOTA(如ESC-50上达到95.5%)。 音频字幕(Table 3):在AudioCaps和Clotho上,SLAP的CIDEr分数(75.1和43.7)优于M2D2-CLAP等采用多阶段训练的CLAP方法。 消融研究(Table 5):在AudioCaps零样本检索上,去除自监督损失(L_SSL)或字幕损失(L_CAP)均导致性能下降,证明了多目标训练的有效性;去除局部注意力也带来性能损失。 实际意义是什么:证明了大规模、灵活(变长)、多目标预训练对学习强大通用音频表示的重要性。SLAP模型可作为强大的音频基础模型,服务于音频检索、分类、字幕等多种下游任务。 主要局限性是什么:预训练使用的MovieGen Audio数据集未公开,这限制了方法的完全复现和对数据规模效应的独立验证;尽管支持变长音频,但报告的测试集音频长度仍在30秒内,更长时序的处理能力未验证;在音频标注(AudioSet)等任务上,并未显著超越最强的专用模型。 🏗️ 模型架构 图1展示了SLAP的整体训练框架。模型主要由三部分组成:音频编码器、文本编码器/解码器和多目标训练管道。 ...

2026-04-29

Sparse-View Visual-Acoustic Latent Learning for Novel-View Audio Synthesis

📄 Sparse-View Visual-Acoustic Latent Learning for Novel-View Audio Synthesis #空间音频 #多模态模型 #自监督学习 #音视频 ✅ 7.5/10 | 前25% | #空间音频 | #多模态模型 | #自监督学习 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yimu Pan (†Dolby Laboratories, ⋆宾夕法尼亚州立大学) 通讯作者:未说明 作者列表:Yimu Pan (†Dolby Laboratories, ⋆宾夕法尼亚州立大学), James Z. Wang (†宾夕法尼亚州立大学), Lie Lu (⋆Dolby Laboratories) 💡 毒舌点评 本文巧妙地将视觉几何表示(Plücker rays)引入声学特征学习,通过Transformer的潜空间注意力机制实现了“看声辨源”,在无需显式标注的情况下提升了稀疏视角合成的空间准确性。然而,其核心音频合成模块直接“拿来主义”ViGAS,虽然保证了公平对比,但也让人怀疑如果换成更强的端到端合成器,论文的创新性是否会被进一步稀释。 📌 核心摘要 问题:现有新视角音频合成(NVAS)方法大多依赖密集场景表示(如全景图)或需要显式的声源位置信息,这些条件在实际应用中难以获取且成本高昂。 方法核心:提出一个名为NVA-Former的视觉-声学Transformer。它以稀疏多视角的图像、相机位姿和音频作为输入,通过视觉分词器(利用Plücker射线嵌入)和声学分词器提取特征,并在Transformer的潜空间中联合处理。模型同时输出目标视角的视觉特征和声学特征,分别用于重建新视角图像和合成双耳音频。 创新点:与依赖声源位置的稀疏方法(如ViGAS)或需要密集输入的稠密方法(如AV-Cloud)不同,本文的方法在潜空间中通过共享的相机位姿信息,隐式地建立跨视角、跨模态的3D关联,从而无需声源位置信息。 实验结果:在真实世界数据集Replay-NVAS和合成数据集SoundSpaces-NVAS上,使用两个输入视角时,NVA-Former在衡量空间准确性的LRE指标(Replay-NVAS:0.671 vs ViGAS 0.800/1.112)和感知质量CDPAM指标(0.132 vs ViGAS 0.383/0.352)上均显著优于最强基线ViGAS,同时保持有竞争力的MAG和RTE性能。消融实验表明,视觉监督和深度监督对性能至关重要。 实际意义:显著降低了现实世界数据采集的门槛,使得仅用少量同步相机-麦克风对即可学习3D声学场景表示,为AR/XR等应用提供了一种更实用的NVAS解决方案。 局限性:模型依赖于预训练的视觉Transformer(LVSM)权重以获得良好的3D视觉理解能力。其核心创新点在于声学特征的学习,而最终的音频合成模块直接复用了先前工作(ViGAS),这可能限制了对其所学声学特征上限的完整评估。 🏗️ 模型架构 论文提出的模型称为Novel-view Visual-Acoustic Transformer (NVA-Former)。其整体流程如图1所示: ...

2026-04-29

SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis

📄 SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis #多模态模型 #知识蒸馏 #对比学习 #数据集 #医疗AI ✅ 7.5/10 | 前25% | #医疗AI | #知识蒸馏 | #多模态模型 #对比学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lukas Buess(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室) 通讯作者:Lukas Buess (Lukas.Buess@fau.de)(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室) 作者列表:Lukas Buess(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),Jan Geier(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),David Bani-Harouni(慕尼黑工业大学,计算机辅助医疗程序组),Chantal Pellegrini(慕尼黑工业大学,计算机辅助医疗程序组),Matthias Keicher(慕尼黑工业大学,计算机辅助医疗程序组),Paula Andrea Perez-Toro(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),Nassir Navab(慕尼黑工业大学,计算机辅助医疗程序组),Andreas Maier(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),Tomas Arias-Vergara(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室) 💡 毒舌点评 这篇论文精准地切入了放射科医生“动口不动手”的报告习惯与现有AI“只认文字”之间的尴尬断层,为构建语音原生的医疗AI开了个好头,且数据集的合成与公开思路值得称赞。但其核心方法本质上是将强大的文本-影像CLIP模型作为“拐杖”来教一个语音模型,缺乏对语音本身独特信息(如语调、停顿)的深度挖掘与利用,使得“语音原生”的潜力尚未被充分释放。 📌 核心摘要 问题:临床放射学报告主要通过口述生成,但现有的医学多模态基础模型(如CT-CLIP)完全依赖书面文本进行训练,忽略了语音这一原生输入模态,且依赖ASR转录会引入错误并丢失信息。 方法核心:提出SpeechCT-CLIP,一个将语音报告与3D CT体积对齐的对比学习模型。核心是构建一个大规模合成语音-CT对数据集Speech-RATE,并采用知识蒸馏策略,将一个预训练的文本-影像CLIP模型(教师)的知识迁移到语音-影像模型(学生)中。 创新点:首次提出并实现了语音-CT的对比对齐;构建了首个大规模合成语音放射学报告数据集Speech-RATE;证明了从文本模型向语音模型进行知识蒸馏能有效弥合性能差距。 实验结果:在零样本分类任务上,SpeechCT-CLIP的F1分数达到0.705,相比不使用知识蒸馏的基线(0.623)提升了13.2%,恢复了文本模型(CT-CLIP, F1=0.718)与语音基线之间88%的性能差距。在跨模态检索任务上,蒸馏也带来了显著提升(如R@100从0.291提升至0.377)。在外部数据集RAD-ChestCT上也验证了方法的泛化性。 实际意义:为构建无需中间转录、直接以语音为输入的诊断支持工具铺平了道路,有望提升临床工作流程的效率和鲁棒性。 主要局限性:1)用于训练的语音数据来自合成(TTS),与真实临床口述在韵律、噪声、口音等方面可能存在差距;2)模型在性能上仍略逊于以文本为输入的CLIP模型;3)论文未探讨模型对语音中额外信息(如犹豫、强调)的建模能力。 🏗️ 模型架构 SpeechCT-CLIP是一个双塔对比学习模型,其架构如图1所示。 ...

2026-04-29

Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

📄 Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning #音视频 #脉冲神经网络 #零样本 #音频分类 #多模态模型 ✅ 7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 通讯作者:Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 作者列表:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hongtao Chen(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Jisheng Chu(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hengyu Man(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Xiaopeng Fan(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 💡 毒舌点评 亮点:论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点,提出的STFE和ETS模块设计目标明确,且通过减少时间步长实现了可观的能耗降低。短板:模型在复杂长视频(ActivityNet)上表现出的“过拟合已见类别、损害未知类别泛化”的现象,恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性,这一核心矛盾在论文中未得到充分讨论和解决。 📌 核心摘要 问题:现有音视频零样本学习(AVZSL)方法普遍存在时间线索利用不足的问题,常依赖简单的特征平均或基础脉冲神经元,无法捕捉深层时间依赖,且能效有待优化。 方法核心:提出脉冲时序增强网络(STEN)。其核心是在Spikeformer架构中集成可学习三元脉冲神经元(LTS) 和时空融合模块(STFE),并通过增强时序Spikeformer(ETS) 自适应整合相邻时间步信息。 新意:相比已有方法(如AVMST),STEN通过LTS增强特征表示能力,通过STFE联合建模时间局部动态和通道依赖,通过ETS捕获微观时序变化。同时利用脉冲神经网络(SNN)的事件驱动稀疏性,通过优化时间步长大幅降低能耗。 主要实验结果: 在VGGSound数据集上,GZSL调和平均(HM)达到8.04,比基线AVMST(7.68)提升4.7%,ZSL指标提升13.6%。 在UCF101数据集上,GZSL的HM达到34.27,比AVMST(29.91)提升14.6%,Seen类准确率大幅提升。 在ActivityNet数据集上,Seen类指标提升40.8%,但Unseen类和HM略有下降。 能效方面,与AVMST相比,SNN能耗降低41.7%,总能耗降低15.6%。 实际意义:为AVZSL任务提供了一种在保持竞争力的同时,显著降低计算能耗的解决方案,有助于将该技术部署到资源受限的边缘设备。 主要局限性:在时序更复杂、视频更长的ActivityNet数据集上,模型表现出对已见类别过拟合的倾向,牺牲了在未见类别上的泛化能力,表明其时间建模策略的稳健性有待提升。此外,论文未提及开源计划,可复现性存疑。 🏗️ 模型架构 STEN的整体架构如图1所示。其处理流程可分为四个主要阶段: 特征提取阶段:使用预训练的SeLaVi模型作为音频(Aenc)和视觉(Venc)编码器的初始化,提取初始特征。同时,每种模态还有一个独立的脉冲时序特征提取(STFE)模块,用于从原始特征中直接提取时间动态信息。 跨模态时间-语义融合阶段: 每种模态(音频a、视觉v)的编码器输出C_m与STFE输出的时序特征S_m通过交叉注意力(CA) 融合,生成时间-语义联合表示 Fts_m。这步旨在将原始特征与捕捉到的时序动态进行初步结合。 核心时序建模阶段: STFE模块:内部包含多个SNN块。每个块由线性层、批归一化和可学习三元脉冲神经元(LTS) 构成。LTS将膜电位映射为{-α, 0, α}三元输出,相比传统二进制脉冲,信息表示更丰富。STFE不使用平均池化,而是保留所有时间步的特征为3D张量,以避免信息丢失。 时空融合模块(STFM):接收STFE输出的3D时序特征张量,通过时间局部注意力(沿时间轴滑动卷积核)和通道局部注意力(沿特征维度操作),联合建模时间上的局部运动模式和特征通道间的语义相关性,得到融合特征F_{i,j}。 增强时序Spikeformer(ETS):这是一个改进的脉冲自注意力模块。它首先对输入进行脉冲层和线性投影得到Q, K, V。然后用1D卷积层分别处理Q, K, V,以自适应整合相邻时间步的信息。之后调整计算顺序为先计算K和V的关系,再与Q交互,并用脉冲神经元替换Softmax,最终输出。 最终融合与投影阶段:将前两个阶段得到的Fts_a, Fts_v和ETS融合的音频-视觉时序特征S_av输入一个跨模态Transformer,生成最终的音视频联合表示Ots_av。最后,通过投影层和重构层将该表示映射到与文本特征对齐的语义空间。 图1:STEN架构示意图。图中显示了特征提取、STFE、STFM(橙色模块)和ETS(蓝色模块)的流程,以及最终跨模态Transformer的整合。关键创新在于蓝色模块中ETS的计算顺序调整(先KV后Q)和STFM的联合时空建模。 ...

2026-04-29

ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere

📄 ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere #主题建模 #多模态模型 #超球面表示 #语音理解 #无监督学习 ✅ 7.0/10 | 前25% | #主题建模 | #多模态模型 | #超球面表示 #语音理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Dayu Guo†(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 通讯作者:Wentao Fan*(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 作者列表:Dayu Guo†(北京师范大学-香港浸会大学联合国际学院,计算机科学系),Zhiwen Luo†(康考迪亚大学,信息系统工程学院),Nizar Bouguila(康考迪亚大学,信息系统工程学院),Wentao Fan*(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 💡 毒舌点评 该论文首次将语音与文本在超球面潜在空间中联合建模,架构设计逻辑清晰,实验结果在多项指标上显示显著提升。然而,其核心任务“主题建模”在当前AI研究中已属相对传统领域,且论文中对比的多数基线模型较为陈旧,对最新多模态或超球面主题建模方法的覆盖有限,这在一定程度上限制了其结论的前沿性和说服力。 📌 核心摘要 要解决什么问题:现有神经主题模型(NTMs)主要局限于文本输入,忽略了语音中丰富的语义和副语言信息。同时,基于文本的多模态主题建模也较少探索语音这一关键模态。 方法核心是什么:提出ST-HNTM,一个首个在共享超球面潜在空间中联合建模语音和文本的神经主题模型。它使用词袋(BoW)和声学词袋(BoAW)分别表示文本和语音,并通过von Mises-Fisher (vMF) 先验推断统一的文档-主题分布,每个模态通过vMF混合成分解码。 与已有方法相比新在哪里:首次将语音模态系统性地集成到基于超球面的神经主题建模框架中,克服了传统方法依赖易错ASR转录文本的局限性,利用原始声学模式提供互补线索。 主要实验结果如何:在LibriSpeech和TEDLIUM-Release3两个基准数据集上,ST-HNTM在主题连贯性(Cv)、多样性(TD)和综合质量(Quality)指标上均优于或持平于多个先进的文本基线模型。例如,在LibriSpeech数据集上,当主题数为10时,ST-HNTM的Quality得分(0.538)显著高于次佳的NeuralLDA(0.452)。消融实验证明,超球面先验、vMF混合解码器以及语音模态的引入对性能均有贡献。 实际意义是什么:展示了将语音直接融入主题建模的价值,为处理语音-文本对齐数据、丰富语义表示、以及在无法获取可靠文本转录(如低资源语言、自发语音)的场景下进行主题发现提供了新思路。 主要局限性是什么:模型性能依赖于预训练的文本和语音嵌入模型(GloVe, wav2vec2)以及声学码本的质量;论文中未详细讨论对语音中说话人、情感等信息的显式建模;实验对比的基线模型部分较为陈旧,未与最新的多模态或超球面主题模型进行对比。 🏗️ 模型架构 ST-HNTM的架构如图1所示,整体是一个变分自编码器(VAE)框架,其核心在于将文本和语音统一到超球面潜在空间中进行主题推断。 图1] 图1:ST-HNTM架构概览。编码器φ在超球面潜在空间上操作,特定模态的解码器γ_t和γ_s分别处理文本和语音。 输入表示: 文本:文档被表示为词袋(BoW)向量 x_i^{(t)},并关联一个经ℓ2归一化(使其位于单位超球面上)的预训练词嵌入矩阵 W^{(t)}。 语音:音频信号首先通过预训练模型(wav2vec2)提取帧级嵌入,然后通过k-means聚类获得声学码本 W^{(s)}。每个音频被量化为声学词袋(BoAW)向量 x_i^{(s)},其帧嵌入和码本向量同样经ℓ2归一化。 编码与推断: ...

2026-04-29