HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound

#音频分类 #多模态模型 #数据集 #基准测试 #音频事件检测

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高

👥 作者与机构

第一作者：Robin Burchard（University of Siegen）
通讯作者：未说明（论文中未明确指定通讯作者）
作者列表：Robin Burchard（University of Siegen）、Pascal-André Brückner（University of Siegen）、Marius Bock（University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence）、Juergen Gall（University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence）、Kristof Van Laerhoven（University of Siegen）

💡 毒舌点评

亮点在于其工程上的“洁癖”——用三击掌同步传感器、在家录制真实环境声、为隐私彻底静音人声，这种对数据质量近乎偏执的追求，是很多论文做不到的。短板则在于，花了大力气采集的环境传感器（温湿度、气压）数据，在最终的机器学习实验中几乎成了“鸡肋”，虽然可视化显示有响应，但消融实验未带来提升，暴露出如何有效融合这类低频、慢变上下文模态仍是开放问题。

🔗 开源详情

代码：https://github.com/RBurchard/HARMES
模型权重：论文中未提及
数据集：HARMES数据集，可通过Zenodo获取：https://doi.org/10.5281/zenodo.19425718。数据集采用CC-BY许可协议。
Demo：论文中未提及
复现材料：论文提供了用于完全复现实验的代码，包括数据加载、预处理和模型训练的完整流程代码（见上述GitHub仓库）。代码仓库和数据集仓库均包含详细的ReadMe文件，说明了其组成及如何使用数据和运行实验。训练细节、超参数和所有相关设置在附录A.3中报告。
论文中引用的开源项目：
1. Puck.js（开源微控制器）：https://www.espruino.com/Puck.js
2. BME280（大气环境传感器）：https://www.bosch-sensortec.com/en/products/environmental-sensors/humidity-sensors-bme280
3. librosa（音频分析库）：https://github.com/librosa/librosa（论文中通过pip安装方式引用，链接由项目主页推断）
4. PyTorch（机器学习框架）：https://pytorch.org/

补充信息

[核心摘要] 补充：论文明确将HARMES与之前最大的同类腕戴惯性-声学数据集SAMoSa进行规模对比，指出其标注数据时长（61小时）是SAMoSa（14.2小时）的4倍以上，并进一步强调了HARMES在模态组合（增加了左腕IMU和环境传感器）上的优势。
[细节详述] 补充：为保护隐私，研究协议要求录制中禁止说话，并对录音中出现人声的片段进行静音处理。具体而言，共有7次静音操作，总静音时长为47.5秒，其中仅1.5秒发生在活动执行期间（0.5秒为刷牙活动，1秒为窗户清洁活动）。其余静音发生在活动间隙或自由活动录制中。此信息进一步佐证了数据处理的严谨性与对隐私的高度重视。
[创新点] 补充：论文的创新点之一在于其严谨的数据收集与处理方法论，具体包括：使用三击掌手势同步所有传感器流；采用实时标注工具（而非事后标注）以减少误差；为保护隐私，在录制期间完全禁止人声并对包含语音的片段进行静音处理。这些细节确保了数据的高质量和伦理合规性。
[细节详述] 补充：关于湿度分支使用的14个手工特征，论文在附录A.3中明确列出：均值（mean）、标准差（sd）、最小值（min）、最大值（max）、中位数（median）、极差（range）、四分位距（inter-quartile-range）、均值差分（mean diff.）、差分标准差（sd diff）、最大绝对差分（max. absolute diff.）、斜率（slope）、均值过零次数（mean crossings）、高于均值的比例（fraction of values above mean）、能量（energy）。这为理解该分支的输入提供了完整细节。

📌 核心摘要

要解决什么问题：现有用于可穿戴人体活动识别（HAR）的公开数据集，要么缺乏音频与惯性数据（IMU）的大规模结合，要么完全没有整合大气环境传感（湿度、温度、压力），而这些模态对于区分动作模糊的日常生活活动（ADLs）具有互补价值。
方法核心是什么：构建并发布了名为HARMES的大规模多模态HAR数据集。数据通过腕戴式智能手表（录音、右腕IMU）和Puck.js设备（左腕IMU、环境传感器）在参与者家中采集，包含20人执行15类ADL的超过80小时数据。研究者设计了基于击掌的同步协议、实时标注流程，并提供了详尽的基线模型与消融实验。
与已有方法相比新在哪里：HARMES是首个公开同时包含腕戴双IMU、音频和大气环境传感的HAR数据集。其标注数据时长（约61小时）是之前最大同类数据集（SaMoSa，14.2小时）的四倍多。录制场景为真实家居环境，而非实验室，增强了生态效度。
主要实验结果：论文提出了一个四分支（音频、左腕IMU、右腕IMU、湿度特征）的融合基线模型。消融实验表明，仅用湿度宏F1为0.098，仅用音频为0.700，仅用双腕IMU为0.619。最佳组合为双腕IMU+音频，在5秒窗口上达到0.763的宏F1分数（见下表）。加入湿度特征后性能未显著提升甚至略降。
传感器配置准确率宏F1分数加权F1分数
H (仅湿度) 0.143 0.098 0.117
A (仅音频) 0.738 0.700 0.738
IMU_L+IMU_R 0.639 0.619 0.639
IMU_L+IMU_R+A 0.794 0.763 0.795
ALL (全部模态) 0.789 0.754 0.789
论文通过混淆矩阵（图6）和逐参与者分析（图7）展示了多模态融合，特别是加入音频后，能有效缓解仅靠运动难以区分的活动（如“泡茶”与“给植物浇水”、“洗手”与“洗碗”）的歧义。
实际意义：为HAR社区提供了一个大规模、多模态、高生态效度的基准，推动对运动、声音与环境上下文互补性的研究。对于开发适用于智能家居、健康监测等场景的鲁棒活动识别系统具有直接价值。
主要局限性：音频中不包含语音，可能限制了模型在嘈杂真实环境中的鲁棒性；环境传感器数据在本文基线模型中未有效利用，其融合方法有待探索；数据集聚焦于室内家居场景，泛化性未知。

🏗️ 模型架构

论文提出一个多分支的后期融合基线模型，用于在消融研究中评估不同模态的贡献。其架构如图5所示。

图5：多模态HAR模型架构

整体流程：

输入：多个传感器的原始时间序列数据。
分支处理：每个模态数据流经独立的特征提取分支。
特征融合：将所有分支输出的嵌入向量进行拼接。
分类头：拼接后的特征通过全连接层，输出最终活动类别概率。

主要组件详解：

音频分支：输入为从原始音频（44.1kHz）转换的对数梅尔频谱图。处理流程为：3个二维卷积层（Conv2d）提取时频特征，随后接入2层LSTM 捕捉时序动态，最终输出一个256维的嵌入向量。
IMU分支（左右腕各一）：两个完全相同的分支，分别处理左腕和右腕的IMU数据（加速度计和陀螺仪，重采样至50Hz）。每个分支采用DeepConvLSTM架构（4个一维卷积层 + 2层LSTM），旨在从原始惯性信号中学习空间和时序特征。每个分支输出一个128维嵌入，两个分支共计256维。
湿度分支：输入为1Hz的相对湿度时间序列。该分支不使用深度网络，而是采用与先前工作相同的14个手工设计的统计特征（如均值、标准差、最小/最大值、差分统计等）。这些特征被连接成一个14维的特征向量。
融合与分类：假设四个分支（音频256维，双腕IMU共256维，湿度14维）均激活，则将它们的输出拼接成一个约526维的向量。该向量通过两个全连接层（维度为256和16），最终输出16类（15个活动 + 1个“空闲/转换”类）的预测。

设计选择与动机：

该架构是后期融合的典型设计，允许灵活地关闭或开启各分支，便于进行消融研究。
音频和IMU分支使用成熟的深度学习模型（CNN+LSTM），以提取各自的深层判别特征。
湿度分支使用手工特征，反映了环境传感器数据（低频、变化缓慢）的特点，也便于与文献直接对比。
该模型作为基线验证工具，证明了数据集的有效性和模态互补性，并非追求模型性能的SOTA。

💡 核心创新点

首创的特定模态组合数据集：HARMES是第一个公开的、同时集成了腕戴双IMU、音频和大气环境传感（湿度、温度、压力）的HAR数据集。这填补了现有数据集中缺乏该传感器组合的空白，为研究这三类信息的互补性提供了基础。
规模与生态效度的大幅提升：相比之前最大的腕戴惯性-声学数据集（SAMoSa，14.2小时），HARMES的标注数据量（61小时）是其4倍以上。更重要的是，数据在20名参与者的真实家庭环境中录制，引入了丰富的环境多样性（不同家居、设备声音）和执行风格差异，提升了数据集的现实意义和模型的泛化潜力。
严谨的数据收集与处理方法论：论文详细阐述了一套高质量数据收集流程：使用三击掌手势实现多设备时间同步；采用实时标注工具减少后期标注误差；为保护隐私，在录制中禁止说话并静音包含人声的片段。所有这些方法论细节确保了数据的可靠性和可复现性。
详尽的基线实验与消融分析：论文不仅提供了数据集，还提供了完整的基线模型代码，并通过跨被试留一法（LOPO）评估，系统性地消融了所有可能的传感器组合（共10种配置）。实验定量地证明了：a) 音频模态本身性能强劲；b) 双腕IMU结合音频达到最佳性能；c) 环境湿度信号在特定活动上有响应，但其有效融合仍是挑战。这为社区后续研究设立了明确的比较基准。

🔬 细节详述

训练数据：
- 数据集：HARMES，包含20名参与者。数据分为两部分：1）结构化录制部分：每人3次录制，每次包含15种ADL的多次重复，共约3小时，完全标注，总计约61小时。2）自由活动部分：每人1次约1小时的录制，活动大部分被标注，总计约20小时。实验主要使用结构化部分。
- 预处理：IMU数据重采样至统一50Hz，并进行Z-score标准化（按参与者和模态独立进行）。音频转换为对数梅尔频谱图（使用librosa库）。湿度传感器（1Hz）数据被提取为14个手工统计特征。
- 窗口划分：使用5秒和10秒的非重叠窗口进行模型训练与评估。窗口标签采用多数投票法确定。
- 数据增强：论文未明确提及使用数据增强技术。
损失函数：类别加权交叉熵损失。权重计算方式为：对每个类别，取其在训练集中样本数量的倒数（加小量防止除零），然后归一化，最后乘以类别总数（16）。用于缓解类别不平衡问题。
训练策略：
- 优化器：Adam，固定学习率0.001。
- 批次大小：32。
- 训练轮数：35个epoch。
- 调度策略：未说明（论文未提及学习率衰减等策略）。
- 验证方法：留一参与者法（LOPO），即每次用19人的数据训练，在剩余1人上测试，以评估对未见参与者的泛化能力。
关键超参数：
- 窗口大小：5秒和10秒。
- IMU采样率：50Hz。
- 音频频谱图参数：未在正文中详细说明（代码中提供）。
- 模型维度：音频分支输出256维，每个IMU分支输出128维，湿度特征14维。分类头为256->16。
训练硬件：未说明（论文未提及使用的GPU型号和训练时长）。
推理细节：未说明（论文仅描述了训练过程，未涉及推理时的解码策略等）。
正则化：在分类头的全连接层使用了Dropout（p=0.3）。

📊 实验结果

主要Benchmark与结果：论文在HARMES数据集上进行LOPO交叉验证，主要指标为准确率（Accuracy）、宏F1分数（F1-macro）和加权F1分数（F1-weighted）。核心结果汇总如下表（5秒窗口）：

传感器配置	准确率	宏F1分数	加权F1分数
H (仅湿度)	0.143	0.098	0.117
IMU_L (左腕IMU)	0.475	0.456	0.473
IMU_R (右腕IMU)	0.599	0.570	0.598
IMU_L+IMU_R (双腕IMU)	0.639	0.619	0.639
IMU_L+IMU_R+H	0.638	0.617	0.638
A (仅音频)	0.738	0.700	0.738
A+H	0.736	0.696	0.735
IMU_R+A	0.771	0.736	0.772
IMU_L+IMU_R+A	0.794	0.763	0.795
ALL (所有模态)	0.789	0.754	0.789

关键消融实验与数字变化：

模态贡献：从表中可见，仅用湿度效果很差（宏F1=0.098）。音频模态本身非常强大（0.700），甚至超过双腕IMU（0.619）。两者结合（IMU_L+IMU_R+A）取得最佳性能（0.763）。
环境传感器的效果：在双腕IMU基础上加入湿度（IMU_L+IMU_R+H），性能几乎不变甚至微降（0.619->0.617）。在音频基础上加入湿度（A+H），性能也基本持平（0.700->0.696）。这表明，在本文所用的特征和模型下，湿度信息的融入并未带来增益。
第二腕IMU的价值：比较IMU_R（0.570）和IMU_L+IMU_R（0.619），增加左腕IMU带来约5%的宏F1提升。而IMU_L+IMU_R+A（0.763）相比IMU_R+A（0.736），提升约3%。表明双腕IMU有补充作用，但音频是更关键的模态。

不同参与者、场景下的结果：

跨被试差异：图7展示了每个参与者在IMU-only、IMU+Audio和ALL三种配置下的宏F1分数。所有参与者的性能在加入音频后均得到提升，且方差减小。左利手参与者（07，10，14）在IMU-only模型中表现较差，但在加入音频后与其他参与者持平，表明音频模态对缓解因用手习惯不同导致的运动模式差异非常有效。
混淆分析：图6（左：IMU+Audio，右：IMU-only）的混淆矩阵显示，加入音频显著减少了动作相似活动间的混淆。例如，“泡茶”与“给植物浇水”在IMU-only矩阵中易混淆，加入音频后区分明显。“洗手”与“洗碗”的混淆也大幅降低。然而，“涂抹护手霜”与“手部消毒”、“整理碗柜”与“清理洗碗机”因动作和声音过于相似，仍是主要混淆源。
湿度响应可视化：图4展示了平均湿度随时间变化曲线。只有“洗碗”和“洗手”等涉水活动表现出明显的湿度上升（约10%相对湿度），验证了环境传感器对特定活动的敏感性，尽管这种敏感性在当前的分类任务中未被模型充分利用。

图6：混淆矩阵对比（左：IMU+Audio，右：IMU-only）

图6结论：多模态模型（左）相比单模态IMU模型（右），几乎所有类别的分类准确率都得到了提升，尤其是“空闲”类和容易混淆的活动对。这直观地证明了音频信息的互补价值。

图7：各参与者在不同模态配置下的宏F1分数

图7结论：音频模态的加入使所有留出参与者的性能得到提升，并显著降低了因参与者个体差异（如用手习惯）导致的性能波动，体现了多模态融合对提升跨被试泛化能力的作用。

⚖️ 评分理由

学术质量：5.5/7。作为一篇数据集论文，其工作极为扎实和完整：提出了一个填补空白的大规模多模态数据集，提供了详尽的数据收集方法论、数据质量验证（可视化检查、统计）以及全面的基线实验与消融分析。创新性主要体现在数据集组合的新颖性和规模上，而非算法模型上的突破。实验设计合理，证据充分（有混淆矩阵、逐参与者分析）。
选题价值：1.5/2。可穿戴多模态HAR是实际应用（如智能家居、健康监测）的关键技术。本工作直接针对“如何利用更丰富、更隐私友好的传感组合来识别复杂日常活动”这一核心问题，其产出（数据集与基准）对推动该领域的研究和应用有明确且直接的价值。
开源与复现加成：1.0/1。论文完全开源了数据集（Zenodo）、所有代码（GitHub，包括数据收集、预处理、模型训练和评估），并提供了详细的复现说明（附录）。这极大地降低了研究门槛，复现性极佳。

← 返回 2026-05-05 语音/音乐/音频论文速递

📄 HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

补充信息#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文

📄 HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound