📄 HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound

#音频分类 #多模态模型 #数据集 #基准测试 #音频事件检测

🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #数据集 #基准测试 | arxiv

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高

👥 作者与机构

  • 第一作者:Robin Burchard(University of Siegen)
  • 通讯作者:未说明(论文中未明确指定通讯作者)
  • 作者列表:Robin Burchard(University of Siegen)、Pascal-André Brückner(University of Siegen)、Marius Bock(University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence)、Juergen Gall(University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence)、Kristof Van Laerhoven(University of Siegen)

💡 毒舌点评

亮点在于其工程上的“洁癖”——用三击掌同步传感器、在家录制真实环境声、为隐私彻底静音人声,这种对数据质量近乎偏执的追求,是很多论文做不到的。短板则在于,花了大力气采集的环境传感器(温湿度、气压)数据,在最终的机器学习实验中几乎成了“鸡肋”,虽然可视化显示有响应,但消融实验未带来提升,暴露出如何有效融合这类低频、慢变上下文模态仍是开放问题。

🔗 开源详情

  • 代码:https://github.com/RBurchard/HARMES
  • 模型权重:论文中未提及
  • 数据集:HARMES数据集,可通过Zenodo获取:https://doi.org/10.5281/zenodo.19425718。数据集采用CC-BY许可协议。
  • Demo:论文中未提及
  • 复现材料:论文提供了用于完全复现实验的代码,包括数据加载、预处理和模型训练的完整流程代码(见上述GitHub仓库)。代码仓库和数据集仓库均包含详细的ReadMe文件,说明了其组成及如何使用数据和运行实验。训练细节、超参数和所有相关设置在附录A.3中报告。
  • 论文中引用的开源项目:
    1. Puck.js(开源微控制器):https://www.espruino.com/Puck.js
    2. BME280(大气环境传感器):https://www.bosch-sensortec.com/en/products/environmental-sensors/humidity-sensors-bme280
    3. librosa(音频分析库):https://github.com/librosa/librosa(论文中通过pip安装方式引用,链接由项目主页推断)
    4. PyTorch(机器学习框架):https://pytorch.org/

补充信息

  • [核心摘要] 补充:论文明确将HARMES与之前最大的同类腕戴惯性-声学数据集SAMoSa进行规模对比,指出其标注数据时长(61小时)是SAMoSa(14.2小时)的4倍以上,并进一步强调了HARMES在模态组合(增加了左腕IMU和环境传感器)上的优势。
  • [细节详述] 补充:为保护隐私,研究协议要求录制中禁止说话,并对录音中出现人声的片段进行静音处理。具体而言,共有7次静音操作,总静音时长为47.5秒,其中仅1.5秒发生在活动执行期间(0.5秒为刷牙活动,1秒为窗户清洁活动)。其余静音发生在活动间隙或自由活动录制中。此信息进一步佐证了数据处理的严谨性与对隐私的高度重视。
  • [创新点] 补充:论文的创新点之一在于其严谨的数据收集与处理方法论,具体包括:使用三击掌手势同步所有传感器流;采用实时标注工具(而非事后标注)以减少误差;为保护隐私,在录制期间完全禁止人声并对包含语音的片段进行静音处理。这些细节确保了数据的高质量和伦理合规性。
  • [细节详述] 补充:关于湿度分支使用的14个手工特征,论文在附录A.3中明确列出:均值(mean)、标准差(sd)、最小值(min)、最大值(max)、中位数(median)、极差(range)、四分位距(inter-quartile-range)、均值差分(mean diff.)、差分标准差(sd diff)、最大绝对差分(max. absolute diff.)、斜率(slope)、均值过零次数(mean crossings)、高于均值的比例(fraction of values above mean)、能量(energy)。这为理解该分支的输入提供了完整细节。

📌 核心摘要

  1. 要解决什么问题:现有用于可穿戴人体活动识别(HAR)的公开数据集,要么缺乏音频与惯性数据(IMU)的大规模结合,要么完全没有整合大气环境传感(湿度、温度、压力),而这些模态对于区分动作模糊的日常生活活动(ADLs)具有互补价值。

  2. 方法核心是什么:构建并发布了名为HARMES的大规模多模态HAR数据集。数据通过腕戴式智能手表(录音、右腕IMU)和Puck.js设备(左腕IMU、环境传感器)在参与者家中采集,包含20人执行15类ADL的超过80小时数据。研究者设计了基于击掌的同步协议、实时标注流程,并提供了详尽的基线模型与消融实验。

  3. 与已有方法相比新在哪里:HARMES是首个公开同时包含腕戴双IMU、音频和大气环境传感的HAR数据集。其标注数据时长(约61小时)是之前最大同类数据集(SaMoSa,14.2小时)的四倍多。录制场景为真实家居环境,而非实验室,增强了生态效度。

  4. 主要实验结果:论文提出了一个四分支(音频、左腕IMU、右腕IMU、湿度特征)的融合基线模型。消融实验表明,仅用湿度宏F1为0.098,仅用音频为0.700,仅用双腕IMU为0.619。最佳组合为双腕IMU+音频,在5秒窗口上达到0.763的宏F1分数(见下表)。加入湿度特征后性能未显著提升甚至略降。

    传感器配置准确率宏F1分数加权F1分数
    H (仅湿度)0.1430.0980.117
    A (仅音频)0.7380.7000.738
    IMU_L+IMU_R0.6390.6190.639
    IMU_L+IMU_R+A0.7940.7630.795
    ALL (全部模态)0.7890.7540.789

    论文通过混淆矩阵(图6)和逐参与者分析(图7)展示了多模态融合,特别是加入音频后,能有效缓解仅靠运动难以区分的活动(如“泡茶”与“给植物浇水”、“洗手”与“洗碗”)的歧义。

  5. 实际意义:为HAR社区提供了一个大规模、多模态、高生态效度的基准,推动对运动、声音与环境上下文互补性的研究。对于开发适用于智能家居、健康监测等场景的鲁棒活动识别系统具有直接价值。

  6. 主要局限性:音频中不包含语音,可能限制了模型在嘈杂真实环境中的鲁棒性;环境传感器数据在本文基线模型中未有效利用,其融合方法有待探索;数据集聚焦于室内家居场景,泛化性未知。

🏗️ 模型架构

论文提出一个多分支的后期融合基线模型,用于在消融研究中评估不同模态的贡献。其架构如图5所示。

图5:多模态HAR模型架构

整体流程:

  1. 输入:多个传感器的原始时间序列数据。
  2. 分支处理:每个模态数据流经独立的特征提取分支。
  3. 特征融合:将所有分支输出的嵌入向量进行拼接。
  4. 分类头:拼接后的特征通过全连接层,输出最终活动类别概率。

主要组件详解:

  • 音频分支:输入为从原始音频(44.1kHz)转换的对数梅尔频谱图。处理流程为:3个二维卷积层(Conv2d) 提取时频特征,随后接入2层LSTM 捕捉时序动态,最终输出一个256维的嵌入向量。
  • IMU分支(左右腕各一):两个完全相同的分支,分别处理左腕和右腕的IMU数据(加速度计和陀螺仪,重采样至50Hz)。每个分支采用DeepConvLSTM架构(4个一维卷积层 + 2层LSTM),旨在从原始惯性信号中学习空间和时序特征。每个分支输出一个128维嵌入,两个分支共计256维。
  • 湿度分支:输入为1Hz的相对湿度时间序列。该分支不使用深度网络,而是采用与先前工作相同的14个手工设计的统计特征(如均值、标准差、最小/最大值、差分统计等)。这些特征被连接成一个14维的特征向量。
  • 融合与分类:假设四个分支(音频256维,双腕IMU共256维,湿度14维)均激活,则将它们的输出拼接成一个约526维的向量。该向量通过两个全连接层(维度为256和16),最终输出16类(15个活动 + 1个“空闲/转换”类)的预测。

设计选择与动机:

  • 该架构是后期融合的典型设计,允许灵活地关闭或开启各分支,便于进行消融研究。
  • 音频和IMU分支使用成熟的深度学习模型(CNN+LSTM),以提取各自的深层判别特征。
  • 湿度分支使用手工特征,反映了环境传感器数据(低频、变化缓慢)的特点,也便于与文献直接对比。
  • 该模型作为基线验证工具,证明了数据集的有效性和模态互补性,并非追求模型性能的SOTA。

💡 核心创新点

  1. 首创的特定模态组合数据集:HARMES是第一个公开的、同时集成了腕戴双IMU、音频和大气环境传感(湿度、温度、压力) 的HAR数据集。这填补了现有数据集中缺乏该传感器组合的空白,为研究这三类信息的互补性提供了基础。
  2. 规模与生态效度的大幅提升:相比之前最大的腕戴惯性-声学数据集(SAMoSa,14.2小时),HARMES的标注数据量(61小时)是其4倍以上。更重要的是,数据在20名参与者的真实家庭环境中录制,引入了丰富的环境多样性(不同家居、设备声音)和执行风格差异,提升了数据集的现实意义和模型的泛化潜力。
  3. 严谨的数据收集与处理方法论:论文详细阐述了一套高质量数据收集流程:使用三击掌手势实现多设备时间同步;采用实时标注工具减少后期标注误差;为保护隐私,在录制中禁止说话并静音包含人声的片段。所有这些方法论细节确保了数据的可靠性和可复现性。
  4. 详尽的基线实验与消融分析:论文不仅提供了数据集,还提供了完整的基线模型代码,并通过跨被试留一法(LOPO) 评估,系统性地消融了所有可能的传感器组合(共10种配置)。实验定量地证明了:a) 音频模态本身性能强劲;b) 双腕IMU结合音频达到最佳性能;c) 环境湿度信号在特定活动上有响应,但其有效融合仍是挑战。这为社区后续研究设立了明确的比较基准。

🔬 细节详述

  • 训练数据:
    • 数据集:HARMES,包含20名参与者。数据分为两部分:1)结构化录制部分:每人3次录制,每次包含15种ADL的多次重复,共约3小时,完全标注,总计约61小时。2)自由活动部分:每人1次约1小时的录制,活动大部分被标注,总计约20小时。实验主要使用结构化部分。
    • 预处理:IMU数据重采样至统一50Hz,并进行Z-score标准化(按参与者和模态独立进行)。音频转换为对数梅尔频谱图(使用librosa库)。湿度传感器(1Hz)数据被提取为14个手工统计特征。
    • 窗口划分:使用5秒和10秒的非重叠窗口进行模型训练与评估。窗口标签采用多数投票法确定。
    • 数据增强:论文未明确提及使用数据增强技术。
  • 损失函数:类别加权交叉熵损失。权重计算方式为:对每个类别,取其在训练集中样本数量的倒数(加小量防止除零),然后归一化,最后乘以类别总数(16)。用于缓解类别不平衡问题。
  • 训练策略:
    • 优化器:Adam,固定学习率0.001。
    • 批次大小:32。
    • 训练轮数:35个epoch。
    • 调度策略:未说明(论文未提及学习率衰减等策略)。
    • 验证方法:留一参与者法(LOPO),即每次用19人的数据训练,在剩余1人上测试,以评估对未见参与者的泛化能力。
  • 关键超参数:
    • 窗口大小:5秒和10秒。
    • IMU采样率:50Hz。
    • 音频频谱图参数:未在正文中详细说明(代码中提供)。
    • 模型维度:音频分支输出256维,每个IMU分支输出128维,湿度特征14维。分类头为256->16。
  • 训练硬件:未说明(论文未提及使用的GPU型号和训练时长)。
  • 推理细节:未说明(论文仅描述了训练过程,未涉及推理时的解码策略等)。
  • 正则化:在分类头的全连接层使用了Dropout(p=0.3)。

📊 实验结果

主要Benchmark与结果: 论文在HARMES数据集上进行LOPO交叉验证,主要指标为准确率(Accuracy)、宏F1分数(F1-macro)和加权F1分数(F1-weighted)。核心结果汇总如下表(5秒窗口):

传感器配置准确率宏F1分数加权F1分数
H (仅湿度)0.1430.0980.117
IMU_L (左腕IMU)0.4750.4560.473
IMU_R (右腕IMU)0.5990.5700.598
IMU_L+IMU_R (双腕IMU)0.6390.6190.639
IMU_L+IMU_R+H0.6380.6170.638
A (仅音频)0.7380.7000.738
A+H0.7360.6960.735
IMU_R+A0.7710.7360.772
IMU_L+IMU_R+A0.7940.7630.795
ALL (所有模态)0.7890.7540.789

关键消融实验与数字变化:

  • 模态贡献:从表中可见,仅用湿度效果很差(宏F1=0.098)。音频模态本身非常强大(0.700),甚至超过双腕IMU(0.619)。两者结合(IMU_L+IMU_R+A)取得最佳性能(0.763)。
  • 环境传感器的效果:在双腕IMU基础上加入湿度(IMU_L+IMU_R+H),性能几乎不变甚至微降(0.619->0.617)。在音频基础上加入湿度(A+H),性能也基本持平(0.700->0.696)。这表明,在本文所用的特征和模型下,湿度信息的融入并未带来增益。
  • 第二腕IMU的价值:比较IMU_R(0.570)和IMU_L+IMU_R(0.619),增加左腕IMU带来约5%的宏F1提升。而IMU_L+IMU_R+A(0.763)相比IMU_R+A(0.736),提升约3%。表明双腕IMU有补充作用,但音频是更关键的模态。

不同参与者、场景下的结果:

  • 跨被试差异:图7展示了每个参与者在IMU-only、IMU+Audio和ALL三种配置下的宏F1分数。所有参与者的性能在加入音频后均得到提升,且方差减小。左利手参与者(07,10,14)在IMU-only模型中表现较差,但在加入音频后与其他参与者持平,表明音频模态对缓解因用手习惯不同导致的运动模式差异非常有效。
  • 混淆分析:图6(左:IMU+Audio,右:IMU-only)的混淆矩阵显示,加入音频显著减少了动作相似活动间的混淆。例如,“泡茶”与“给植物浇水”在IMU-only矩阵中易混淆,加入音频后区分明显。“洗手”与“洗碗”的混淆也大幅降低。然而,“涂抹护手霜”与“手部消毒”、“整理碗柜”与“清理洗碗机”因动作和声音过于相似,仍是主要混淆源。
  • 湿度响应可视化:图4展示了平均湿度随时间变化曲线。只有“洗碗”和“洗手”等涉水活动表现出明显的湿度上升(约10%相对湿度),验证了环境传感器对特定活动的敏感性,尽管这种敏感性在当前的分类任务中未被模型充分利用。

图6:混淆矩阵对比(左:IMU+Audio,右:IMU-only)

  • 图6结论:多模态模型(左)相比单模态IMU模型(右),几乎所有类别的分类准确率都得到了提升,尤其是“空闲”类和容易混淆的活动对。这直观地证明了音频信息的互补价值。

图7:各参与者在不同模态配置下的宏F1分数

  • 图7结论:音频模态的加入使所有留出参与者的性能得到提升,并显著降低了因参与者个体差异(如用手习惯)导致的性能波动,体现了多模态融合对提升跨被试泛化能力的作用。

⚖️ 评分理由

  • 学术质量:5.5/7。作为一篇数据集论文,其工作极为扎实和完整:提出了一个填补空白的大规模多模态数据集,提供了详尽的数据收集方法论、数据质量验证(可视化检查、统计)以及全面的基线实验与消融分析。创新性主要体现在数据集组合的新颖性和规模上,而非算法模型上的突破。实验设计合理,证据充分(有混淆矩阵、逐参与者分析)。
  • 选题价值:1.5/2。可穿戴多模态HAR是实际应用(如智能家居、健康监测)的关键技术。本工作直接针对“如何利用更丰富、更隐私友好的传感组合来识别复杂日常活动”这一核心问题,其产出(数据集与基准)对推动该领域的研究和应用有明确且直接的价值。
  • 开源与复现加成:1.0/1。论文完全开源了数据集(Zenodo)、所有代码(GitHub,包括数据收集、预处理、模型训练和评估),并提供了详细的复现说明(附录)。这极大地降低了研究门槛,复现性极佳。

← 返回 2026-05-05 论文速递