SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training

📄 SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training #音频检索 #音频分类 #多模态模型 #预训练 #对比学习 🔥 8.0/10 | 前25% | #音频检索 | #预训练 | #音频分类 #多模态模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Xinhao Mei(Meta) 通讯作者:未说明 作者列表:Xinhao Mei(Meta)、Gael Le Lan(Meta)、Haohe Liu(Meta)、Zhaoheng Ni(Meta)、Varun Nagaraja(Meta)、Yang Liu(Meta)、Yangyang Shi(Meta)、Vikas Chandra(Meta) 💡 毒舌点评 SLAP在CLAP的“变长音频处理”和“单阶段多目标训练”两个痛点上给出了工程与学术结合得相当漂亮的方案,尤其序列打包技巧很实用。但宣称的“109M数据”优势建立在未公开的私有数据集上,这削弱了其结论的可复现性和说服力,让后续研究者难以直接验证或跟进其“规模至上”的逻辑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的预训练或微调模型权重。 数据集:使用的预训练数据集(MovieGen Audio)未公开。评估所用数据集(AudioCaps, Clotho, ESC-50等)为公开基准。 Demo:未提及在线演示。 复现材料:提供了详细的模型架构配置(如层数、维度)、超参数(学习率、batch size、掩码比例等)、训练策略(预热、EMA)和数据预处理步骤,这些信息有助于复现。但缺少代码和数据,完全复现难度很大。 论文中引用的开源项目:引用了Flash Attention [17]用于高效计算,以及ModernBERT [15]、SpecAugment [22]等开源工作/工具。 开源计划:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:当前对比语言-音频预训练(CLAP)模型存在三大局限:训练数据规模相对较小(通常百万级)、音频输入时长固定(通常≤10秒)且需要填充/截断、以及全局对比学习损失阻碍了密集细粒度音频特征的学习。 方法核心是什么:提出SLAP框架,通过三点解决上述问题:(1) 将预训练规模扩展至1.09亿音频-文本对;(2) 重新设计Transformer音频编码器,支持最长30秒的变长音频输入,并采用混合注意力机制与序列打包技术高效处理;(3) 统一对比损失、自监督掩码建模损失和字幕生成损失到单阶段训练中。 与已有方法相比新在哪里:相比先前工作,SLAP首次将音频-文本预训练推向亿级数据规模;其音频编码器从头训练,原生支持变长输入,避免了填充/截断;其统一的单阶段多目标训练管道简化了流程(不同于多阶段方法),旨在同时学习全局对齐和局部密集特征。 主要实验结果如何: 音频文本检索(Table 1):在AudioCaps和Clotho数据集上,无论是零样本还是微调设置,SLAP均达到了SOTA性能。例如,在微调后,AudioCaps文本到音频检索的R@1达到47.5%,Clotho的音频到文本检索R@1达到36.8%。 零样本音频分类(Table 2):在ESC-50、CREMA-D和GTZAN数据集上,通过在WavCaps上微调后,SLAP取得了新的SOTA(如ESC-50上达到95.5%)。 音频字幕(Table 3):在AudioCaps和Clotho上,SLAP的CIDEr分数(75.1和43.7)优于M2D2-CLAP等采用多阶段训练的CLAP方法。 消融研究(Table 5):在AudioCaps零样本检索上,去除自监督损失(L_SSL)或字幕损失(L_CAP)均导致性能下降,证明了多目标训练的有效性;去除局部注意力也带来性能损失。 实际意义是什么:证明了大规模、灵活(变长)、多目标预训练对学习强大通用音频表示的重要性。SLAP模型可作为强大的音频基础模型,服务于音频检索、分类、字幕等多种下游任务。 主要局限性是什么:预训练使用的MovieGen Audio数据集未公开,这限制了方法的完全复现和对数据规模效应的独立验证;尽管支持变长音频,但报告的测试集音频长度仍在30秒内,更长时序的处理能力未验证;在音频标注(AudioSet)等任务上,并未显著超越最强的专用模型。 🏗️ 模型架构 图1展示了SLAP的整体训练框架。模型主要由三部分组成:音频编码器、文本编码器/解码器和多目标训练管道。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 315 words

Sparse-View Visual-Acoustic Latent Learning for Novel-View Audio Synthesis

📄 Sparse-View Visual-Acoustic Latent Learning for Novel-View Audio Synthesis #空间音频 #多模态模型 #自监督学习 #音视频 ✅ 7.5/10 | 前25% | #空间音频 | #多模态模型 | #自监督学习 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yimu Pan (†Dolby Laboratories, ⋆宾夕法尼亚州立大学) 通讯作者:未说明 作者列表:Yimu Pan (†Dolby Laboratories, ⋆宾夕法尼亚州立大学), James Z. Wang (†宾夕法尼亚州立大学), Lie Lu (⋆Dolby Laboratories) 💡 毒舌点评 本文巧妙地将视觉几何表示(Plücker rays)引入声学特征学习,通过Transformer的潜空间注意力机制实现了“看声辨源”,在无需显式标注的情况下提升了稀疏视角合成的空间准确性。然而,其核心音频合成模块直接“拿来主义”ViGAS,虽然保证了公平对比,但也让人怀疑如果换成更强的端到端合成器,论文的创新性是否会被进一步稀释。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及是否公开。 数据集:使用了公开的数据集(Replay-NVAS, SoundSpaces-NVAS),但论文中未提供获取链接。 Demo:未提及。 复现材料:论文仅提供了高层模型架构、损失函数公式和部分实验设置(如基于LVSM预训练),但缺失大量训练细节(优化器、学习率、具体超参数值、训练时长等),不足以支持完全复现。 论文中引用的开源项目:LVSM [9], ViGAS [7], SoundSpaces 2.0 [24], Gibson [25], LibriSpeech [26], VGGT [10], Parallel WaveGAN [23]等。 总体评估:论文中未提及具体的开源计划,复现信息不充分。 📌 核心摘要 问题:现有新视角音频合成(NVAS)方法大多依赖密集场景表示(如全景图)或需要显式的声源位置信息,这些条件在实际应用中难以获取且成本高昂。 方法核心:提出一个名为NVA-Former的视觉-声学Transformer。它以稀疏多视角的图像、相机位姿和音频作为输入,通过视觉分词器(利用Plücker射线嵌入)和声学分词器提取特征,并在Transformer的潜空间中联合处理。模型同时输出目标视角的视觉特征和声学特征,分别用于重建新视角图像和合成双耳音频。 创新点:与依赖声源位置的稀疏方法(如ViGAS)或需要密集输入的稠密方法(如AV-Cloud)不同,本文的方法在潜空间中通过共享的相机位姿信息,隐式地建立跨视角、跨模态的3D关联,从而无需声源位置信息。 实验结果:在真实世界数据集Replay-NVAS和合成数据集SoundSpaces-NVAS上,使用两个输入视角时,NVA-Former在衡量空间准确性的LRE指标(Replay-NVAS:0.671 vs ViGAS 0.800/1.112)和感知质量CDPAM指标(0.132 vs ViGAS 0.383/0.352)上均显著优于最强基线ViGAS,同时保持有竞争力的MAG和RTE性能。消融实验表明,视觉监督和深度监督对性能至关重要。 实际意义:显著降低了现实世界数据采集的门槛,使得仅用少量同步相机-麦克风对即可学习3D声学场景表示,为AR/XR等应用提供了一种更实用的NVAS解决方案。 局限性:模型依赖于预训练的视觉Transformer(LVSM)权重以获得良好的3D视觉理解能力。其核心创新点在于声学特征的学习,而最终的音频合成模块直接复用了先前工作(ViGAS),这可能限制了对其所学声学特征上限的完整评估。 🏗️ 模型架构 论文提出的模型称为Novel-view Visual-Acoustic Transformer (NVA-Former)。其整体流程如图1所示: ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 424 words

SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis

📄 SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis #多模态模型 #知识蒸馏 #对比学习 #数据集 #医疗AI ✅ 7.5/10 | 前25% | #医疗AI | #知识蒸馏 | #多模态模型 #对比学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lukas Buess(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室) 通讯作者:Lukas Buess (Lukas.Buess@fau.de)(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室) 作者列表:Lukas Buess(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),Jan Geier(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),David Bani-Harouni(慕尼黑工业大学,计算机辅助医疗程序组),Chantal Pellegrini(慕尼黑工业大学,计算机辅助医疗程序组),Matthias Keicher(慕尼黑工业大学,计算机辅助医疗程序组),Paula Andrea Perez-Toro(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),Nassir Navab(慕尼黑工业大学,计算机辅助医疗程序组),Andreas Maier(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室),Tomas Arias-Vergara(弗里德里希-亚历山大大学埃尔朗根-纽伦堡分校,模式识别实验室) 💡 毒舌点评 这篇论文精准地切入了放射科医生“动口不动手”的报告习惯与现有AI“只认文字”之间的尴尬断层,为构建语音原生的医疗AI开了个好头,且数据集的合成与公开思路值得称赞。但其核心方法本质上是将强大的文本-影像CLIP模型作为“拐杖”来教一个语音模型,缺乏对语音本身独特信息(如语调、停顿)的深度挖掘与利用,使得“语音原生”的潜力尚未被充分释放。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开模型权重。 数据集:Speech-RATE数据集承诺在 Hugging Face 上公开发布(地址:https://huggingface.co/datasets/lbuess/Speech-RATE)。 Demo:未提供在线演示。 复现材料:论文给出了基本的训练超参数(学习率、batch size、优化器、训练步数),但缺少详细配置、检查点及更完整的复现说明(如环境配置、数据预处理脚本)。蒸馏权重λ等关键超参数未提供。 论文中引用的开源项目:依赖的开源工具/模型包括:Kokoro TTS引擎、CT-RATE数据集、CT-CLIP模型、Whisper、HuBERT、wav2vec 2.0等预训练模型。 📌 核心摘要 问题:临床放射学报告主要通过口述生成,但现有的医学多模态基础模型(如CT-CLIP)完全依赖书面文本进行训练,忽略了语音这一原生输入模态,且依赖ASR转录会引入错误并丢失信息。 方法核心:提出SpeechCT-CLIP,一个将语音报告与3D CT体积对齐的对比学习模型。核心是构建一个大规模合成语音-CT对数据集Speech-RATE,并采用知识蒸馏策略,将一个预训练的文本-影像CLIP模型(教师)的知识迁移到语音-影像模型(学生)中。 创新点:首次提出并实现了语音-CT的对比对齐;构建了首个大规模合成语音放射学报告数据集Speech-RATE;证明了从文本模型向语音模型进行知识蒸馏能有效弥合性能差距。 实验结果:在零样本分类任务上,SpeechCT-CLIP的F1分数达到0.705,相比不使用知识蒸馏的基线(0.623)提升了13.2%,恢复了文本模型(CT-CLIP, F1=0.718)与语音基线之间88%的性能差距。在跨模态检索任务上,蒸馏也带来了显著提升(如R@100从0.291提升至0.377)。在外部数据集RAD-ChestCT上也验证了方法的泛化性。 实际意义:为构建无需中间转录、直接以语音为输入的诊断支持工具铺平了道路,有望提升临床工作流程的效率和鲁棒性。 主要局限性:1)用于训练的语音数据来自合成(TTS),与真实临床口述在韵律、噪声、口音等方面可能存在差距;2)模型在性能上仍略逊于以文本为输入的CLIP模型;3)论文未探讨模型对语音中额外信息(如犹豫、强调)的建模能力。 🏗️ 模型架构 SpeechCT-CLIP是一个双塔对比学习模型,其架构如图1所示。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 319 words

Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

📄 Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning #音视频 #脉冲神经网络 #零样本 #音频分类 #多模态模型 ✅ 7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 通讯作者:Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 作者列表:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hongtao Chen(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Jisheng Chu(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hengyu Man(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Xiaopeng Fan(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 💡 毒舌点评 亮点:论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点,提出的STFE和ETS模块设计目标明确,且通过减少时间步长实现了可观的能耗降低。短板:模型在复杂长视频(ActivityNet)上表现出的“过拟合已见类别、损害未知类别泛化”的现象,恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性,这一核心矛盾在论文中未得到充分讨论和解决。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开数据集(VGGSound, UCF101, ActivityNet),未提及额外数据。 Demo:未提供在线演示。 复现材料:提供了主要超参数(见03.细节详述),但缺少优化器、学习率调度、数据预处理/增强细节、完整训练配置文件等。 论文中引用的开源项目:引用了预训练模型SeLaVi[17](“Labelling unlabelled videos from scratch with multi-modal self-supervision”),但未提供其具体开源链接。 总体开源情况:论文中未提及开源计划。 📌 核心摘要 问题:现有音视频零样本学习(AVZSL)方法普遍存在时间线索利用不足的问题,常依赖简单的特征平均或基础脉冲神经元,无法捕捉深层时间依赖,且能效有待优化。 方法核心:提出脉冲时序增强网络(STEN)。其核心是在Spikeformer架构中集成可学习三元脉冲神经元(LTS) 和时空融合模块(STFE),并通过增强时序Spikeformer(ETS) 自适应整合相邻时间步信息。 新意:相比已有方法(如AVMST),STEN通过LTS增强特征表示能力,通过STFE联合建模时间局部动态和通道依赖,通过ETS捕获微观时序变化。同时利用脉冲神经网络(SNN)的事件驱动稀疏性,通过优化时间步长大幅降低能耗。 主要实验结果: 在VGGSound数据集上,GZSL调和平均(HM)达到8.04,比基线AVMST(7.68)提升4.7%,ZSL指标提升13.6%。 在UCF101数据集上,GZSL的HM达到34.27,比AVMST(29.91)提升14.6%,Seen类准确率大幅提升。 在ActivityNet数据集上,Seen类指标提升40.8%,但Unseen类和HM略有下降。 能效方面,与AVMST相比,SNN能耗降低41.7%,总能耗降低15.6%。 实际意义:为AVZSL任务提供了一种在保持竞争力的同时,显著降低计算能耗的解决方案,有助于将该技术部署到资源受限的边缘设备。 主要局限性:在时序更复杂、视频更长的ActivityNet数据集上,模型表现出对已见类别过拟合的倾向,牺牲了在未见类别上的泛化能力,表明其时间建模策略的稳健性有待提升。此外,论文未提及开源计划,可复现性存疑。 🏗️ 模型架构 STEN的整体架构如图1所示。其处理流程可分为四个主要阶段: ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 332 words

ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere

📄 ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere #主题建模 #多模态模型 #超球面表示 #语音理解 #无监督学习 ✅ 7.0/10 | 前25% | #主题建模 | #多模态模型 | #超球面表示 #语音理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Dayu Guo†(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 通讯作者:Wentao Fan*(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 作者列表:Dayu Guo†(北京师范大学-香港浸会大学联合国际学院,计算机科学系),Zhiwen Luo†(康考迪亚大学,信息系统工程学院),Nizar Bouguila(康考迪亚大学,信息系统工程学院),Wentao Fan*(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 💡 毒舌点评 该论文首次将语音与文本在超球面潜在空间中联合建模,架构设计逻辑清晰,实验结果在多项指标上显示显著提升。然而,其核心任务“主题建模”在当前AI研究中已属相对传统领域,且论文中对比的多数基线模型较为陈旧,对最新多模态或超球面主题建模方法的覆盖有限,这在一定程度上限制了其结论的前沿性和说服力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集LibriSpeech和TEDLIUM-Release3,但未提供定制的数据集或预处理工具。 Demo:未提供。 复现材料:论文提供了一定的训练细节(优化器、学习率、轮数、超参数初始值等),但缺乏完整的代码和配置文件。 论文中引用的开源项目:依赖预训练词嵌入glove-wiki-gigaword-100和预训练语音模型wav2vec2-base-960h。 总体:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:现有神经主题模型(NTMs)主要局限于文本输入,忽略了语音中丰富的语义和副语言信息。同时,基于文本的多模态主题建模也较少探索语音这一关键模态。 方法核心是什么:提出ST-HNTM,一个首个在共享超球面潜在空间中联合建模语音和文本的神经主题模型。它使用词袋(BoW)和声学词袋(BoAW)分别表示文本和语音,并通过von Mises-Fisher (vMF) 先验推断统一的文档-主题分布,每个模态通过vMF混合成分解码。 与已有方法相比新在哪里:首次将语音模态系统性地集成到基于超球面的神经主题建模框架中,克服了传统方法依赖易错ASR转录文本的局限性,利用原始声学模式提供互补线索。 主要实验结果如何:在LibriSpeech和TEDLIUM-Release3两个基准数据集上,ST-HNTM在主题连贯性(Cv)、多样性(TD)和综合质量(Quality)指标上均优于或持平于多个先进的文本基线模型。例如,在LibriSpeech数据集上,当主题数为10时,ST-HNTM的Quality得分(0.538)显著高于次佳的NeuralLDA(0.452)。消融实验证明,超球面先验、vMF混合解码器以及语音模态的引入对性能均有贡献。 实际意义是什么:展示了将语音直接融入主题建模的价值,为处理语音-文本对齐数据、丰富语义表示、以及在无法获取可靠文本转录(如低资源语言、自发语音)的场景下进行主题发现提供了新思路。 主要局限性是什么:模型性能依赖于预训练的文本和语音嵌入模型(GloVe, wav2vec2)以及声学码本的质量;论文中未详细讨论对语音中说话人、情感等信息的显式建模;实验对比的基线模型部分较为陈旧,未与最新的多模态或超球面主题模型进行对比。 🏗️ 模型架构 ST-HNTM的架构如图1所示,整体是一个变分自编码器(VAE)框架,其核心在于将文本和语音统一到超球面潜在空间中进行主题推断。 ...

2026-04-29 · 更新于 2026-05-21 · 3 min · 539 words

Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis

📄 Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis #多模态模型 #扩散模型 #多模态模型 #语音情感识别 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #扩散模型 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kaiyang Zheng(上海交通大学计算机科学与技术学院) 通讯作者:Gehao Sheng(上海交通大学计算机科学与技术学院) 作者列表:Kaiyang Zheng(上海交通大学计算机科学与技术学院)、Gehao Sheng(上海交通大学计算机科学与技术学院) 💡 毒舌点评 亮点:该工作将扩散模型从生成任务“跨界”到语义修复,用于对齐和修正多模态下的噪声文本,是一个颇具巧思的“认知模拟”尝试,为处理模态缺失提供了新思路。短板:整体框架依赖外部的情绪描述生成模块(EDG),核心创新更侧重于框架整合与特定组件(如Hybrid MoE)的设计,而非底层原理突破;论文对“Semantic Cortex Emulator”等命名略显“包装”,部分机制解释深度有限。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/zhengky-paper-account/SDHM。 模型权重:未提及。 数据集:论文中使用了公开数据集CMU-MOSI和CH-SIMS,但未说明是否提供已处理好的数据或特定预处理脚本。 Demo:未提供。 复现材料:论文给出了一些关键超参数(如扩散步数、beta范围、模型深度、专家数等),但未提供完整的训练配置文件、预训练权重或训练日志。 引用的开源项目:论文引用了DEVA、Linear-MoE等开源工作,并在其基础上进行改进。 📌 核心摘要 要解决的问题:多模态情感分析(MSA)中,文本模态常因口语化和ASR错误而包含噪声和歧义,现有方法处理此类噪声鲁棒性不足。 方法核心:提出受认知启发的两阶段框架SDHM。第一阶段,使用混合线性注意力与Transformer的MoE模型渐进增强单模态特征,并引入基于扩散模型的重建损失来对齐多模态线索、修复损坏内容。第二阶段,将重建后的语义特征与原始文本特征融合,形成鲁棒的主模态表示进行最终预测。 与已有方法相比新在哪里:首次在MSA领域将扩散模型用于文本模态的语义修复(而非高层融合或生成);设计了交替使用线性MoE和Transformer-MoE的“混合专家”结构,旨在平衡特征描述对齐与上下文语义提取,并抑制噪声放大。 主要实验结果:在MOSI和SIMS数据集的随机模态缺失设定下,SDHM取得了SOTA性能。在MOSI上,MAE降至0.698,相关系数Corr提升至0.800(均为p<0.01显著提升)。在模态缺失鲁棒性测试中,当缺失率为0.3时,其MAE仍比LNLN低0.086,Corr高0.084。消融实验证明,结合混合MoE与扩散损失能带来最大性能增益。 实际意义:提升了MSA模型在真实世界(多噪声、多缺失模态)场景下的预测准确性和鲁棒性,对人机交互、情感计算等应用有直接价值。 主要局限性:在极端模态缺失(如缺失率0.8)条件下,分类准确率(如Acc-7)仍略低于部分基线模型。框架依赖外部生成的情绪描述,增加了系统复杂度。 🏗️ 模型架构 SDHM是一个两阶段、多组件的端到端框架。其整体处理流程如下图所示(图1): ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 313 words

Still Thinking or Stopped Talking? Dialogue Silence Intention Classification Using Multimodal Large Language Model

📄 Still Thinking or Stopped Talking? Dialogue Silence Intention Classification Using Multimodal Large Language Model #语音对话系统 #多模态模型 #数据集 #大语言模型 ✅ 6.5/10 | 前25% | #语音对话系统 | #多模态模型 | #数据集 #大语言模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Muyun Wu(京都大学信息学院) 通讯作者:未说明 作者列表:Muyun Wu(京都大学信息学院)、Zi Haur Pang(京都大学信息学院)、Koji Inoue(京都大学信息学院)、Tatsuya Kawahara(京都大学信息学院) 💡 毒舌点评 亮点:论文精准地抓住了对话系统中一个被长期忽视但至关重要的细节——沉默的意图解读,并为此构建了首个专门的多模态数据集,这种对具体问题的深入挖掘值得肯定。 短板:模型更像是现有成熟组件(Whisper, SigLip2, Q-former, Qwen3)的“乐高式”拼装,在多模态融合的核心技术上缺乏原创性。数据集规模相对较小(仅63名说话人),且仅针对日语,结论的普适性存疑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文详细描述了数据集构建方法,但未明确说明是否会公开发布该数据集。 Demo:论文中未提及在线演示。 复现材料:论文提供了模型架构、训练策略(优化器、学习率、LoRA参数)、推理设置等复现所需的关键框架信息,但缺少损失函数、完整超参、训练日志等细节。 论文中引用的开源项目:CLIP [13], SigLip2 [14], AV-HuBERT [15], Marlin [16], Whisper, HuBERT, BLIP-2/Q-former [17], MMS-LlaMA [18], VideoLLaMA2/STPConnector [12], Qwen3, Llama3.2, Perceiver IO [19], Adam [20], LoRA [21]。 总结:论文中未提及明确的开源计划。 📌 核心摘要 本文旨在解决对话式语音系统(SDS)中用户长暂停(沉默)意图不明确的问题,即无法判断用户是在“思考”还是已“停止发言”。方法核心是将此问题重新定义为多模态(音频-视频)分类任务,并构建了一个包含63名日语母语者与“倾听系统”交互的专用数据集,对2秒以上的静音区间基于前后文语言线索、视觉线索和后续行为进行标注。基于此数据集,作者提出了一种名为SilenceLLM的多模态大语言模型架构,该架构结合了视觉编码器(评估了CLIP, SigLip2, AV-HuBERT, Marlin)、音频编码器(Whisper, HuBERT)、AV Q-former和LLM解码器。与已有方法相比,其新意在于专门针对沉默理解设计了数据集和端到端的分类框架,并在多个组件组合上进行了系统性对比。实验表明,最优配置(Qwen3-1.7B + SigLip2 (带STPConnector) + Whisper)达到了0.857的宏F1分数,显著优于单模态基线(音频0.662, 视频0.392),且与通用多模态LLM(如MMS-LlaMA)相比也有显著提升(p<0.05)。这项工作的实际意义在于为提升对话系统的交互自然性提供了关键模块和评估数据集。主要局限性是数据集规模较小、语种单一,且模型的创新性更多体现在系统集成而非底层算法突破。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 318 words

Streamingbench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

📄 Streamingbench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding #基准测试 #模型评估 #多模态模型 #音视频 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #模型评估 #音视频 学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junming Lin(BUPT)(论文中Junming Lin标记为1⋆,表明是主要贡献者之一,但未明确“第一作者”;机构BUPT在作者列表中标注) 通讯作者:未说明(论文中未明确标注通讯作者。Maosong Sun标记为1†,但†符号在作者列表中未定义为通讯作者) 作者列表:Junming Lin3⋆(BUPT)、Zheng Fang1⋆(未说明)、Chi Chen1†(清华大学计算机系)、Haoxuan Cheng4(西安交通大学)、Zihao Wan1(未说明)、Fuwen Luo1(未说明)、Ziyue Wang1(未说明)、Peng Li2(清华大学AIR)、Yang Liu1,2(清华大学计算机系、清华大学AIR)、Maosong Sun1†(清华大学计算机系、清华大学AIR) 💡 毒舌点评 本文最大的贡献是“承认差距”——它用一套精心设计的考卷,无情地证明了当前最聪明的多模态大模型在“边看边想边答”的能力上,依然是个不及格的“学龄前儿童”(最佳模型比人类低21.4%),这记耳光打得非常及时且必要。然而,它只负责“诊断”却未开“药方”,深度的分析和指明的改进方向(如处理并发线索、主动输出)虽有价值,但停留在表面,更像一份详尽的“体检报告”而非“手术方案”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开本文评估的模型权重(这些权重属于各模型原作者)。 数据集:论文明确指出StreamingBench已公开(“we hope our work facilitates further advancements…”),但未给出具体获取链接。论文中详细描述了数据构建过程,理论上可部分复现。 Demo:未提及。 复现材料:论文在附录(未提供)中应包含更详细的评估设置说明(如对非流式模型的评估方法)。正文中给出了一些评估配置(如输入帧数、分辨率处理)。 引用的开源项目:论文引用了大量开源模型作为评估对象,包括LLaVA-OneVision, Qwen2-VL, InternVL2, MiniCPM系列, VideoLLM-online, Flash-VStream等。 📌 核心摘要 问题:当前多模态大语言模型(MLLMs)主要针对离线视频理解(处理完整视频后回答问题),与人类能实时“观看、聆听、思考、回应”流式视频输入的能力存在显著差距。现有基准无法有效评估这种流式能力。 方法核心:提出StreamingBench,首个专门评估MLLMs流式视频理解能力的综合基准。该基准包含900个视频和4500个精心制作的问题对,每个视频设有5个不同时间点的问题以模拟连续流场景。它从三个核心维度评估:实时视觉理解、全模态(视觉+音频)理解和上下文理解。 新意:与传统离线基准相比,StreamingBench的关键创新在于强调了时间性(问题需在特定时间点回答)、交互性(支持多轮任务)和多模态同步性(需对齐处理视觉和音频流)。 主要实验结果:评估了3个闭源和20个开源MLLMs。即使是最强的闭源模型Gemini 1.5 Pro(总分70.26%),也比人类平均水平(91.66%)低21.4个百分点。开源模型中MiniCPM-o 2.6表现最好(66.01%)。模型在处理“并发线索”和“后续线索”时性能显著下降,表明其上下文记忆和实时对齐能力薄弱。分析还发现,使用语音指令会降低模型性能,而直接处理原生音频比使用ASR转录效果更好。关键性能对比如下表: 模型类型 模型名称 总体得分(%) 实时视觉(%) 全模态(%) 上下文(%) 人类 Human 91.66 91.46 90.26 93.55 闭源 Gemini 1.5 Pro 70.26 77.39 67.80 51.06 GPT-4o 64.31 74.54 50.95 49.06 Claude-3.5-sonnet 60.06 74.04 41.40 39.70 开源 (~7B) MiniCPM-o 2.6 66.01 79.88 53.40 38.45 InternVL2.5 64.36 78.32 46.70 43.14 InternLM-XComposer2.5-OmniLive 60.80 75.36 46.20 33.58 实际意义:为评估和推进真正具有实时交互能力的多模态AI系统(如个人助理、实时翻译、智能监控)提供了首个标准化测试集和基线,明确了当前技术的主要短板和未来发展方向。 主要局限性:本文是一项评估研究,未提出任何新的模型或算法来解决所发现的问题。其深度分析停留在现有模型的能力表征上,未进行根本性的模型架构或训练方法的探索。此外,视频来源为YouTube,可能无法完全覆盖所有现实流式场景。 🏗️ 模型架构 本文是一篇基准测试与评估论文,并未提出一个新的模型架构。其核心贡献在于定义和构建了一个评估框架(StreamingBench),并利用该框架测试了多种现有的MLLMs。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 262 words

SURE: Synergistic Uncertainty-Aware Reasoning for Multimodal Emotion Recognition in Conversations

📄 SURE: Synergistic Uncertainty-Aware Reasoning for Multimodal Emotion Recognition in Conversations #语音情感识别 #多模态模型 #混合专家 #鲁棒性 #基准测试 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #混合专家 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yiqiang Cai(1. 广东省量子工程与量子材料重点实验室;2. 华南师范大学电子科学与工程学院(微电子学院)) 通讯作者:Bolei Ma(慕尼黑大学 & 慕尼黑机器学习中心),Yun Xue(华南师范大学电子科学与工程学院(微电子学院)) 作者列表:Yiqiang Cai(华南师范大学),Chengyan Wu(华南师范大学),Bolei Ma(慕尼黑大学),Bo Chen(深圳大学),Yun Xue(华南师范大学),Julia Hirschberg(哥伦比亚大学),Ziwei Gong(哥伦比亚大学) 💡 毒舌点评 该论文的亮点在于将不确定性感知的混合专家模型与受认知理论启发的迭代推理模块进行协同设计,为处理对话中多模态信号的噪声和上下文依赖提供了一个系统且直观的框架。然而,其创新更多是“组合创新”,对“迭代推理”模块的认知心理学理论(引用了Scherer, Schachter)与实际实现的LSTM迭代机制之间深层联系的论述略显薄弱,且实验中去除这些模块后的性能下降幅度(约0.3%-0.5%)暗示其核心贡献的强度或许被高估。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/swaggy66/SURE。 模型权重:未提及是否公开预训练模型权重。 数据集:未提及公开新的数据集。实验所用的IEMOCAP和MELD均为公开基准数据集。 Demo:未提及提供在线演示。 复现材料:提供了基础的训练细节(优化器、学习率、batch size、dropout、epoch),但缺乏模型参数量、训练时长、具体的PyTorch版本和依赖库列表、以及更详细的超参搜索过程说明。 论文中引用的开源项目:论文引用了作为基线方法的多个开源项目(如MMGCN, DF-ERC, SDT, Joyful等,详见参考文献)。在方法部分,提到了使用RoBERTa(Hugging Face Transformers)、openSMILE和DenseNet(可能指torchvision中的模型)作为特征提取器,这些均为开源工具/模型。 总结:论文提供了核心代码,为复现奠定了基础,但完整的复现仍需一定工程努力,未达到“一键运行”的便捷程度。 📌 核心摘要 问题:对话中的多模态情感识别(MERC)需要整合多模态信号,但现有方法常忽视模态特征中的噪声不确定性,并且对细粒度上下文推理的建模不足。 方法核心:提出SURE框架,包含三个协同模块:1) 不确定性感知混合专家(MoE)模块,通过将特征映射为高斯分布并基于不确定性路由到不同专家,动态处理模态特异性噪声;2) 迭代推理模块,受情感认知理论启发,通过循环更新查询向量从全局记忆中检索上下文线索,模拟多轮情感推理;3) Transformer门控模块,通过模态内自注意力和模态间交叉注意力,自适应地捕获并融合不同模态的内部依赖与交互信息。 创新点:与先前方法相比,SURE首次将显式的不确定性建模(用于噪声鲁棒性)和受认知过程启发的迭代上下文推理,与自适应的多模态交互融合机制系统性地整合到一个统一框架中。 主要结果:在IEMOCAP和MELD两个基准数据集上,SURE在准确率(Acc)和加权F1分数(F1)上均优于所有对比的基线方法。关键实验结果如下表所示: 模型类型 模型名称 IEMOCAP Acc IEMOCAP F1 MELD Acc MELD F1 图基方法 Joyful 70.55 71.03 62.53 61.77 MMPCGN 68.90 68.00 60.70 59.30 融合方法 DF-ERC 71.84 71.75 68.28 67.03 SDT 73.95 74.08 67.55 66.60 MM-NodeFormer 74.24 74.20 67.86 66.09 本文方法 SURE 75.31 74.80 67.97 67.36 消融实验表明,移除MoE模块或迭代推理模块均会导致性能下降,验证了各模块的有效性。完整模态组合性能最优,且文本模态起主导作用。 5. 实际意义:该框架为构建更鲁棒、可解释的对话情感识别系统提供了新思路,对社交机器人、情感计算、心理健康支持等应用具有潜在价值。 6. 主要局限性:1) 性能提升幅度在部分指标和数据集上有限(如MELD上Acc仅比SDT高0.42%);2) 迭代推理模块的“认知启发”更多是隐喻,其理论合理性与计算效率的平衡未深入探讨;3) 模型可能因依赖预训练特征提取器(RoBERTa, DenseNet)和较复杂的模块设计而增加计算开销。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 285 words

SynaSpot: A Lightweight, Streaming Multi-modal Framework for Keyword Spotting with Audio-Text Synergy

📄 SynaSpot: A Lightweight, Streaming Multi-modal Framework for Keyword Spotting with Audio-Text Synergy #关键词检测 #多模态模型 #流式处理 #对比学习 ✅ 7.5/10 | 前25% | #关键词检测 | #多模态模型 | #流式处理 #对比学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Kewei Li (†等贡献) (阿里巴巴集团,智能互联) 通讯作者:Xiaotao Liang (∗) (阿里巴巴集团,智能互联) 作者列表:Kewei Li†, Yinan Zhong†, Xiaotao Liang∗, Tianchi Dai, Shaofei Xue(所有作者均隶属于:Intelligent Connectivity, Alibaba Group, Hangzhou, China) 💡 毒舌点评 亮点在于将“多模态注册”和“流式数学解码”结合得非常优雅,通过一个轻量的音频编码器实现了灵活的多种注册模式,工程实用性强。短板是模型架构本身(DFSMN)缺乏新颖性,流式解码部分的泛化性论证和与更多现代流式模型的深度对比有待加强,且训练策略的细节(如域适应的具体设置)可以更透明。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用了公开的LibriSpeech数据集,以及由作者构建或使用的LibriPhrase和WenetiPhrase数据集。后者获取方式未详细说明。 Demo:未提及。 复现材料:论文提供了部分训练细节(如优化器、学习率、批量大小、GPU型号、模型层数和隐藏维度),但关键超参数(如温度τ、平滑窗口尺寸)和完整的数据预处理流程未详细给出,复现信息不完整。 论文中引用的开源项目:主要引用了用于对比的基线方法和损失函数(如ECAPA-TDNN [15] 用于说话人分类器设计,对比学习框架[5]),但未明确列出依赖的特定开源工具包。 📌 核心摘要 本文针对开放词汇关键词检测(KWS)在流式场景中面临的多模态模型参数开销大、端到端解码灵活性差的问题,提出了一种名为SYNASPOT的轻量级流式多模态框架。其核心方法包括:1) 设计一种轻量的音频编码器,并通过对抗训练剥离说话人信息,得到与说话人无关的音频表征;2) 引入文本和音频-文本混合模态,并通过对比学习将三者对齐到同一嵌入空间;3) 提出一种流式解码方案,在线推理时仅运行音频编码器,并利用缓存的模态嵌入通过数学计算(滑动窗口平滑与相似度聚合)直接生成帧级分数。主要实验表明,在英文LibriPhrase和中文WenetiPhrase数据集上,SYNASPOT(仅0.9M参数)在多种注册模式下均优于或媲美基线方法,在难度较大的测试集(LPH/WPH)上取得了更低的错误率(如LPH上EER为27.29%)和更高的AUC(79.15%)。该工作的实际意义在于为资源受限的端侧设备提供了一种高效、灵活的流式KWS解决方案。其主要局限性在于未与更多最新的端到端流式模型进行全面比较,且流式解码的性能对滑动窗口超参数的敏感性未充分讨论。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 330 words