📄 FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention

#音频分类 #多模态模型 #恶意软件检测 #双曲神经网络 #跨模态融合

7.5/10 | 前25% | #音频分类 | #多模态模型 | #恶意软件检测 #双曲神经网络

学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Nitin Choudhury (印度信息技术学院德里分校, IIIT-Delhi), Bikrant Bikram Pratap Maurya (印度信息技术学院德里分校, IIIT-Delhi) (论文指出两位作者贡献相等,共同作为第一作者)
  • 通讯作者:Orchid Chetia Phukan (orchidp@iiitd.ac.in) (印度信息技术学院德里分校, IIIT-Delhi)
  • 作者列表:Nitin Choudhury (IIIT-Delhi), Bikrant Bikram Pratap Maurya (IIIT-Delhi), Orchid Chetia Phukan (IIIT-Delhi), Arun Balaji Buduru (IIIT-Delhi)

💡 毒舌点评

亮点:首次将双曲空间和双曲交叉注意力机制引入多模态恶意软件分类,为融合具有潜在层次关系的模态数据提供了新颖且理论优雅的解决方案,实验结果也确实证明了其有效性。短板:论文虽展示了性能提升,但对于“音频模态编码细粒度字节特征,视觉模态捕获高层空间结构”这一层次假设的实证分析不足,且双曲计算带来的额外开销与性能收益的权衡讨论缺失。

📌 核心摘要

  1. 问题:恶意软件不断演化,传统分类方法易受规避。多模态融合是提升鲁棒性的有效途径,但现有方法未充分利用音频和视觉模态之间隐含的层次关系。
  2. 方法核心:提出FOCA框架,将恶意软件二进制文件转换为音频和图像表示。使用预训练模型提取特征后,通过一个双曲投影模块将特征映射到庞加莱球空间,然后利用新颖的双曲交叉注意力(HCA)机制在曲率感知的约束下对齐双模态依赖,最后通过莫比乌斯加法进行融合。
  3. 新意:首次在恶意软件分类任务中利用双曲空间进行多模态融合,以显式建模音频与视觉表征间的层次结构;提出了专门的双曲交叉注意力机制。
  4. 实验结果:在CICMalDroid2020和Mal-Net两个基准数据集上,FOCA(使用HuBERT+ViT)分别取得了99.10% 和 82.84% 的分类准确率,显著优于所有单模态模型、简单拼接、欧几里得交叉注意力基线及先前的SOTA方法。t-SNE可视化显示FOCA能产生更紧凑、分离度更高的聚类。
  5. 实际意义:为恶意软件检测提供了更强大、更鲁棒的分类框架,证明了双曲多模态融合是提升分类性能的有效新方向。
  6. 主要局限性:对音频与视觉模态间“层次关系”的假设缺乏更深层的验证或分析;未详细讨论双曲计算的额外复杂性;实验未在更多样化或更大规模的恶意软件数据集上进行验证。

🏗️ 模型架构

FOCA的整体架构(如图1所示)可分为三个阶段:模态转换与表征提取、双曲空间融合、分类预测。

  1. 模态转换与表征提取:

    • 二进制到音频:将APK-dex文件的原始字节序列映射为波形样本,保存为.wav文件。
    • 二进制到图像:将字节读作0-255的无符号整数,重塑为2D矩阵,将文件头、数据和其余部分分别映射到RGB三通道,生成图像。
    • 表征提取:分别使用预训练的音频模型(Wav2vec2, WavLM, HuBERT)和视觉模型(ResNet50, VGG19, ViT)提取特征,并通过池化获得固定维度向量(音频768维,视觉2048/4096/768维)。
  2. FOCA融合模块:

    • 卷积块:将提取的特征通过两层1D-CNN(64、128滤波器,核大小3)和最大池化,然后展平。
    • 双曲投影:使用指数映射 exp_0(x) = tanh(‖x‖) * x / ‖x‖ 将欧几里得空间的特征 H(a), H(v) 映射到庞加莱球 B_d 中,得到 Q(a), K(a), V(a)Q(v), K(v), V(v)
    • 双曲交叉注意力(HCA):计算双向的跨模态注意力权重。例如,从音频到视觉的注意力 α_{a→v} 使用双曲距离 d_H 计算:exp(-d_H(Q_i^a, K_j^v)) / Σ_{j'} exp(-d_H(Q_i^a, K_{j'}^v))。其中双曲距离定义为 d_H(x,y) = arcosh(1 + 2‖x-y‖² / ((1-‖x‖²)(1-‖y‖²)))
    • 双曲聚合与融合:使用双曲标量乘法(⊗_H)和莫比乌斯加法(⊕_H)将注意力权重与值进行聚合,得到两个方向的输出 O_{a→v}O_{v→a}。然后使用莫比乌斯加法将两者融合:O = O_{a→v} ⊕_H O_{v→a}
    • 映射回欧几里得空间:使用对数映射 log_0(x) = tanh⁻¹(‖x‖) * x / ‖x‖ 将融合后的双曲表示映射回欧几里得空间。
  3. 分类预测:将融合后的特征 O 输入全连接层(120和30个神经元),最后通过softmax输出分类概率。

图1: FOCA框架图 图1:FOCA框架。展示了从恶意软件样本到模态转换、卷积处理、双曲投影、双曲交叉注意力(HCA)融合,最终到分类输出的完整流程。关键创新点在于在双曲空间内进行跨模态注意力对齐与融合。

💡 核心创新点

  1. 首次将双曲空间用于恶意软件多模态融合:针对音频和视觉模态可能存在的层次关系(音频编码细粒度特征,视觉编码高层结构),首次利用双曲空间的几何特性(能高效表征树状、层次化数据)来显式建模这种关系,这是一个全新的视角。
  2. 提出双曲交叉注意力(HCA)机制:为解决标准欧几里得交叉注意力无法有效捕获双曲空间中依赖关系的问题,设计了基于双曲距离的注意力计算方法,并在双曲空间内进行值的聚合,实现了曲率感知的跨模态对齐。
  3. 端到端的双曲多模态融合框架(FOCA):将双曲投影、HCA、莫比乌斯加法融合和映射回欧几里得空间整合成一个完整、可微的框架,实现了从原始表征到最终分类的端到端训练。
  4. 系统性的多模态表征与融合对比:论文不仅提出了新方法,还系统性地对比了不同音频(Wav2vec2, WavLM, HuBERT)和视觉(ViT, VGG-19, ResNet-50)预训练模型在不同融合策略(拼接、欧氏注意力、双曲注意力)下的表现,提供了全面的基准分析。

🔬 细节详述

  • 训练数据:
    • CICMalDroid2020:17341个APK样本,包含1个良性类别和4个恶意类别(广告软件、银行恶意软件、短信恶意软件、风险软件)。
    • Mal-Net:原数据集为超过120万张恶意软件图像。论文从中筛选了10个类别(如广告软件、点击器+木马、间谍软件等),每个类别随机抽取800个样本,形成8000个样本的平衡数据集。APK文件通过Androzoo映射获得。
  • 损失函数:分类交叉熵损失(Categorical Cross-Entropy)。
  • 训练策略:
    • 优化器:Adam
    • 学习率:1e-5
    • 批量大小:32
    • 训练轮数:50个epoch
    • 验证策略:5折交叉验证(4折训练,1折测试)
    • 正则化:使用了Dropout和早停(Early Stopping)防止过拟合。
  • 关键超参数:融合后的全连接层为120和30个神经元。可训练参数量在2.7M到4.5M之间,取决于输入表征的维度。
  • 训练硬件:论文中未提及。
  • 推理细节:未说明。
  • 正则化/稳定训练技巧:Dropout, 早停。

📊 实验结果

论文在两个数据集上报告了单模态和多模态模型的准确率(Accuracy)和宏F1分数(macro-F1)。

表1:单模态与多模态模型性能(%)

模型Mal-Net (Acc)Mal-Net (F1)CICMalDroid2020 (Acc)CICMalDroid2020 (F1)
音频模态
WavLM63.3160.2273.6971.71
Wav2Vec268.8265.4676.1274.07
HuBERT64.6961.5380.9878.80
图像模态
ViT62.9058.4874.9074.48
VGG-1961.0156.7372.6572.25
ResNet-5059.8755.6171.1870.76
多模态(音频 + 图像,拼接)
Wav2Vec2 + ViT71.9368.3182.2181.90
HuBERT + ViT70.6667.0380.1679.85
多模态(音频 ⊗ 图像,欧氏交叉注意力)
WavLM ⊗ ViT74.1172.2285.5685.25
Wav2Vec2 ⊗ ViT74.8672.8993.2191.90
HuBERT ⊗ ViT76.7874.7792.2191.89
多模态(音频 ⊞ 图像,FOCA)
WavLM ⊞ ViT79.7380.1088.4787.23
Wav2Vec2 ⊞ ViT80.9877.9891.2189.90
HuBERT ⊞ ViT (最佳)82.8481.7299.1098.85
先前SOTA (对比)
Samaneh et al. [22]41.7340.8496.7397.84
Scott et al. [23]70.1267.7193.7491.81
Yang et al. [27]53.7153.6598.5298.31

关键结论:

  1. 多模态融合显著优于单模态:无论是拼接、欧氏注意力还是FOCA,所有多模态组合均优于最佳单模态模型。例如,在Mal-Net上,最佳单模态(Wav2Vec2)准确率为68.82%,而FOCA(HuBERT ⊞ ViT)达到82.84%。
  2. FOCA一致性地优于欧氏融合基线:在所有测试的音频-视觉组合中,FOCA(⊞)均取得了比简单拼接(+)和欧氏交叉注意力(⊗)更高的性能。以HuBERT+ViT在Mal-Net上的表现为例:拼接为70.66%,欧氏注意力为76.78%,FOCA为82.84%。
  3. 达到新的SOTA:FOCA在两个数据集上均超越了表中列出的所有先前工作。在CICMalDroid2020上,HuBERT ⊞ ViT达到99.10%准确率,超过了之前SOTA(Yang et al. 的98.52%)。
  4. t-SNE可视化:图2比较了欧氏交叉注意力与FOCA在CICMalDroid2020上的潜在表示。FOCA产生的聚类更紧凑、类别间分离度更高,直观证明了其更优的表征学习能力。

图2: t-SNE可视化比较 图2:在CICMalDroid-2020数据集上的t-SNE可视化对比:(a) 欧氏交叉注意力(HuBERT ⊗ ViT),(b) FOCA(HuBERT ⊞ ViT)。FOCA的可视化结果显示出更清晰、更分离的类别聚类,表明其学习到的特征表征更具区分性。

⚖️ 评分理由

  • 学术质量 (6.0/7):创新性突出,首次将双曲融合引入该领域;技术细节清晰,方法设计合理;实验充分,在多个基线上进行了系统对比,结果显著且可信。不足之处在于对核心假设(模态间层次关系)的验证和机理解释可以更深入。
  • 选题价值 (1.0/2):研究问题(恶意软件分类)具有明确的应用价值,且所提出的多模态融合方法具有通用潜力。但该任务本身在AI领域相对垂直,对更广泛的音频/语音社区的直接启发性有限。
  • 开源与复现加成 (0.5/1):提供了代码仓库链接,详细描述了数据集处理、模型结构、训练超参数(如lr=1e-5, batch=32, epochs=50, 5-fold CV),复现性良好。扣分项是未提及预训练模型的具体获取方式(虽可默认为HuggingFace标准模型)和训练硬件信息。

🔗 开源详情

  • 代码:提供代码仓库链接:https://github.com/nitinc24009/FOCA.git
  • 模型权重:论文中未提及公开的模型权重文件。
  • 数据集:使用了公开的CICMalDroid2020和Mal-Net数据集。Mal-Net的APK样本通过Androzoo获取。
  • Demo:论文中未提及在线演示。
  • 复现材料:提供了详细的训练细节(损失函数、优化器、学习率、批量大小、轮数、交叉验证策略)和模型参数量信息(2.7M-4.5M),有助于复现。
  • 引用的开源项目:论文中提及使用了HuggingFace上的预训练模型:Wav2vec2, WavLM, HuBERT, ResNet50, VGG19, ViT。代码仓库可能依赖于这些模型及相关库(如PyTorch, Torchaudio)。

← 返回 ICASSP 2026 论文分析