📄 HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge Graph Question Answering on Household Daily Activities
✅ 7.5/10 | 后50% | #Transformer | arxiv
学术质量 5.5/7 | 影响力 0.5/2 | 可复现性 1.5/2 | 置信度 高
👥 作者与机构
Shusaku Egami, Aoi Ohta, Tomoki Tsujimura, Masaki Asada, Tatsuya Ishigaki, Ken Fukuda, Masahiro Hamasaki, Hiroya Takamura National Institute of Advanced Industrial Science and Technology (AIST)
📌 核心摘要
本文提出了HOME-KGQA,一个基于家庭日常活动多模态知识图谱的问答基准数据集。该数据集旨在弥补现有KGQA基准在百科知识偏见、单一模态和缺乏细粒度时空数据方面的不足,以更好地服务于具身智能等真实世界场景。数据集构建基于VHAKG多模态知识图谱,通过马尔可夫链概率生成了包含超过1.5亿三元组的100天情景知识图谱。问题-SPARQL对通过模板与LLM结合生成,并利用检索增强生成方法进行改写。实验在i.i.d.和组合泛化两种设置下进行,评估了直接文本到SPARQL(零样本、少样本、微调)和基于交互智能体的KBQA两类方法。结果表明,HOME-KGQA对现有方法构成了比传统基准大得多的挑战,特别是在问题改写和组合泛化场景下,模型性能显著下降,突显了在真实日常活动场景中部署KGQA系统的困难。
🔗 开源详情
- 代码:https://github.com/aistairc/home-kgqa (提供情景知识图谱构建、问题-SPARQL生成、问题改写脚本)
- 模型权重:未提供直接下载链接。实验使用了gpt-4o-mini-2024-07-18(需通过OpenAI API访问)和Llama-3.1-8B-Instruct(Meta开源模型,权重可通过HuggingFace等获取,但论文未提供具体链接)。
- 数据集:HOME-KGQA数据集。获取链接与代码仓库相同:https://github.com/aistairc/home-kgqa。论文未说明具体开源协议。
- Demo:未提及在线演示链接。
- 复现材料:论文公开了用于构建情景知识图谱、生成问题-SPARQL对以及进行问题改写的所有脚本代码。未单独提供训练配置文件或模型检查点的下载链接。
- 论文中引用的开源项目:
- VirtualHome:用于生成合成数据的模拟器。论文未提供链接,公开项目为 https://github.com/xnpeng/VirtualHome。
- VHAKG:多模态知识图谱构建研究(Egami et al., 2024)。论文未提供该项目的具体链接。
- Interactive-KBQA:交互式知识图谱问答方法(Xiong et al., 2024)。论文未提供该项目的具体链接。
- OpenAI API (gpt-4o-mini):用于问题生成和实验的模型服务。论文未提供项目链接。
🏗️ 方法概述和架构
HOME-KGQA的构建与评估方法涵盖三个核心阶段:情景知识图谱构建、问答数据集生成以及模型评估实验。
情景知识图谱构建:
- 源知识图谱:基础是VHAKG,这是一个从虚拟环境模拟器VirtualHome生成的合成数据构建的、以事件为中心的多模态知识图谱(MMKG)。
- 情景生成:VHAKG仅包含独立的活动。为构建长程家庭日常活动,论文采用一阶马尔可夫链,其转移概率基于先前众包收集的600条活动序列计算得出。利用该马尔可夫链,概率性地生成了100个连续的“天”,每天包含18个活动的合理家庭日常情节。
- 知识图谱填充:生成的每个情节被建模为一个
Episode实体,并通过hasActivity关系链接到其包含的Activity实体,活动之间添加了时序顺序关系。为区分同一活动在不同天中的出现,为每个实体分配了顺序ID。所有事件的绝对起止时间被分配,起始点设定为2024年4月1日05:00:00。 - 图谱特性:最终构建的情景知识图谱整合了五个不同本体:事件中心结构、基于MSSN和SOSA的多媒体数据、基于OWL-Time的时间信息、扩展自HomeOntology的活动概念,以及用于3D空间表示的X3D本体。这体现了其处理异构数据集成和细粒度时空表示的目标。
问答数据集生成:
- 问题设计:问题围绕家庭活动的五个要素(主体、动作、对象、空间、时间)设计,但因模拟单人家庭,主体被排除。问题类型(表1)涵盖对象、动作、空间、时间、活动、视频和聚合查询,旨在评估对复杂图谱结构的理解。
- SPARQL与问题文本生成:基于问题类型和限定符类型(表2)定义的模板生成SPARQL查询。限定符值(如对象类型“冰箱”、时间“在某个时间点之后”)被填充到一个JSON结构中。然后,使用OpenAI
gpt-4o-mini模型,通过少样本提示(few-shot prompting)生成对应的自然语言问题。 - 问题改写:为提升问题的自然度,论文采用受检索增强生成(RAG)启发的改写方法。首先定义了一系列改写规则(如纠正语法、自然化表达时间/属性/状态等)作为系统提示。然后,为每种问题类型人工创建一个包含原始问题和改写问题的金标数据集(共22对)。对于新问题,从金标集中检索
k=5个最相似的问题作为少样本示例,提示LLM进行改写。 - 数据集划分:为评估泛化能力,数据集被划分为i.i.d.和组合泛化两种设置的训练/测试集(350/700)。i.i.d.设置确保测试集包含训练未见过的实体和字面值;组合泛化设置则确保测试集包含训练未见过的SPARQL操作符(如COUNT, MIN, <, >)。
实验评估:
- 基线与指标:对比了KQA Pro、WebQuestionsSP、ComplexWebQuestions和MetaQA四个数据集。评估指标为精确匹配(执行SPARQL查询的结果与标准答案完全匹配)。
- 方法:
- 直接文本到SPARQL:使用
gpt-4o-mini-2024-07-18和Llama-3.1-8B-Instruct模型,采用零样本、5样本少样本和监督微调(SFT)三种设置。模型输入固定格式的提示(系统消息+用户问题),输出SPARQL查询。未向模型提供实体名称/ID列表,以模拟真实场景。 - 交互式智能体KBQA:采用Interactive-KBQA(无SFT)方法,使用
gpt-4o-mini作为后端LLM。该方法提供工具(如实体链接、子图检索、SPARQL执行),通过多轮“思考-行动”循环生成查询。评估了两种少样本配置:“all+1-shot”(每个问题类别一个示例)和“same+2-shot”(同一类别两个示例)。
- 直接文本到SPARQL:使用


💡 核心创新点
- 首个家庭情景知识图谱KGQA基准:提出了针对家庭环境、基于多模态事件中心知识图谱(MMKG)的KGQA数据集,填补了现有基准偏向百科知识、缺乏细粒度多模态时空数据的空白。
- 可扩展的数据生成流程:提供了从情景知识图谱构建、问题与SPARQL生成到问题改写的完整自动化流程及代码,支持数据集的灵活扩展。
- 揭示了新挑战:通过全面实验表明,现有文本到SPARQL和交互式智能体方法在HOME-KGQA上性能显著下降,尤其在处理自然化改写问题和组合泛化时,指出了在真实日常活动场景中部署KGQA系统的实际困难。
📊 实验结果
论文在i.i.d.和组合泛化两种设置下评估了两类方法。主要实验结果如表5所示。
表5:在i.i.d.泛化数据集上的实验结果
| Approach | Model | Strategy | Raw | Paraphrased | KQAPro | WebQSP | CWQ | MetaQA |
|---|---|---|---|---|---|---|---|---|
| Text-to-SPARQL | GPT-4o-mini | Zero-shot | 0.000 | 0.000 | 0.026 | 0.000 | 0.000 | 0.000 |
| 5-shot | 0.117 | 0.056 | 0.115 | 0.050 | 0.095 | 0.059 | ||
| Fine-tuning | 0.462 | 0.148 | 0.628 | 0.283 | 0.200 | 0.244 | ||
| Text-to-SPARQL | Llama-3.1-8B-Instruct | Zero-shot | 0.000 | 0.000 | 0.021 | 0.000 | 0.000 | 0.000 |
| 5-shot | 0.000 | 0.000 | 0.050 | 0.070 | 0.003 | 0.064 | ||
| Fine-tuning | 0.148 | 0.047 | 0.590 | 0.200 | 0.245 | 0.217 | ||
| Interactive-KBQA | GPT-4o-mini | all+1-shot | 0.137 | 0.126 | 0.637 | 0.480 | 0.140 | 0.857 |
表6:在组合泛化数据集上的实验结果
| Approach | Model | Strategy | IID Raw | IID Paraphrased | Comp Raw | Comp Paraphrased |
|---|---|---|---|---|---|---|
| Text-to-SPARQL | GPT-4o-mini | Zero-shot | 0.000 | 0.000 | 0.003 | 0.003 |
| 5-shot | 0.117 | 0.056 | 0.066 | 0.043 | ||
| Fine-tuning | 0.462 | 0.148 | 0.521 | 0.444 | ||
| Text-to-SPARQL | Llama-3.1-8B-Instruct | Zero-shot | 0.000 | 0.000 | 0.001 | 0.001 |
| 5-shot | 0.000 | 0.000 | 0.000 | 0.000 | ||
| Fine-tuning | 0.148 | 0.047 | 0.267 | 0.162 | ||
| Interactive-KBQA | GPT-4o-mini | all+1-shot | 0.137 | 0.126 | 0.053 | 0.046 |
| same+2-shot | 0.087 | 0.077 | 0.076 | 0.069 |
表7:按问题类别的评估结果(原始问题,模型:GPT-4o-mini)
| Approach | Generalization | Object | Action | Space | Time | Activity | Video | Aggregation |
|---|---|---|---|---|---|---|---|---|
| Text-to-SPARQL | I.I.D. | 0.166 | 0.238 | 0.336 | 0.253 | 0.636 | 0.315 | 0.171 |
| Compositional | 0.280 | 0.278 | 0.868 | 0.256 | 0.470 | 0.226 | 0.088 | |
| Interactive-KBQA | I.I.D. | 0.053 | 0.234 | 0.194 | 0.036 | 0.000 | 0.000 | 0.053 |
| Compositional | 0.112 | 0.299 | 0.132 | 0.037 | 0.008 | 0.000 | 0.034 |
主要发现如下:
- 整体难度:在零样本设置下,所有模型在HOME-KGQA上的准确率接近于零,表明其问题本身对未微调的LLM极具挑战。
- 微调效果与数据集对比:在i.i.d.设置下,微调后的
GPT-4o-mini在原始问题上达到46.2%准确率,低于KQA Pro(62.8%),但高于其他数据集。然而,在改写问题上,其准确率骤降至14.8%,成为所有数据集中最低的,凸显了问题自然化带来的挑战。 - 交互式方法:交互式KBQA方法(all+1-shot)在HOME-KGQA改写问题上仅有12.6%的准确率,远低于在KQA Pro(63.7%)和MetaQA(85.7%)上的表现。分析显示,73.8%的交互式案例因达到最大轮次而未能输出最终答案,主要归因于HOME-KGQA复杂异构的图谱结构和缺乏明确实体标签,导致交互步数增多和失败风险增大。
- 组合泛化:文本到SPARQL微调方法在组合泛化设置下仍有一定效果(
GPT-4o-mini在改写问题上44.4%)。而交互式KBQA方法在组合泛化设置下性能进一步恶化。 - 问题类型分析(表7):
Interactive-KBQA在视频和活动类问题上几乎完全失败。Text-to-SPARQL在空间类问题的组合泛化设置下表现最好(86.8%),但在聚合类问题上表现最差。


🔬 细节详述
- 数据集规模:情景知识图谱包含882个类,13,191,977个实例(实体),154,860,255个三元组。问答数据集包含1,050个示例,每个问题类别(共7类)各150个,训练/测试集划分均为350/700。
- 模型细节:微调使用监督学习(SFT),但论文未提供学习率、批次大小、训练轮数等超参数。
Interactive-KBQA方法的最大对话轮次设置为默认的20。 - 问题生成与改写:原始问题生成的模板准确率在99个样本中为99/99(人工评估)。改写问题的保真度在100个样本中为94/94(成功保持原意),6个存在错误或意义偏移。论文明确指出,问题生成和改写均使用
gpt-4o-mini模型,但未说明其API调用成本或具体的提示设计细节。 - 数据集划分细节:i.i.d.划分确保测试集包含训练未见过的实体和字面值;组合泛化划分将COUNT、MIN、AVG、SUM、
<、>等操作符设为测试集未见,并确保每个测试查询至少包含一个此类操作符。 - 失败分析:交互式方法失败的主要原因是达到了最大轮次限制。这源于HOME-KGQA集成了五个异构本体,图谱结构复杂,且存在大量无明确标签的节点,导致定位时间和空间条件需要更多交互步骤,增加了单步操作失败的概率。
⚖️ 评分理由
- 创新性 (2.5/3):提出了一个有价值的基准方向(家庭情景、多模态事件KG),但核心贡献是数据集构建,属于工程性贡献,在算法或理论创新上较为有限。
- 技术严谨性 (1.2/1.5):数据集构建流程描述清晰,实验设置合理。但实验部分存在不足:交互式方法的内部机制(如工具调用失败率)分析不够深入;问题生成和改写的LLM具体配置和提示未公开,影响可复现性;未对生成的情景知识图谱质量进行评估。
- 实验充分性 (1.0/1.5):对比了多个基线数据集和两类方法,覆盖了i.i.d.和组合泛化设置。但基线模型数量有限(仅
GPT-4o-mini和Llama-3.1-8B),缺乏与其他专门为文本到SPARQL或交互式推理设计的最新方法的对比。 - 清晰度 (0.8/1):论文结构清晰,数据集构建和实验部分描述较为详尽。但方法部分的图表(图1,2)未能在提供的文本中显示,影响对架构的理解。
- 影响力 (0.5/2):对KGQA,特别是面向具身智能和家庭场景的KGQA社区有潜在推动作用。但论文核心贡献与语音、音乐或音频处理领域关联甚微,对专注该领域的读者直接价值较低。
- 开源 (1.2/1.5):提供了数据集和生成代码的GitHub链接,复现材料较为完备。但模型权重(尤其是微调后的模型)未开源,且依赖
gpt-4o-miniAPI,存在成本和访问限制。 - 可复现性 (0.3/0.5):代码和数据集公开有助于复现。但关键的LLM超参数、提示模板、问题改写金标集等细节未公开,使得完全精确复现实验结果存在困难。
总分调整说明:原评分8.2显著偏高,未能反映论文的实际贡献层级和局限性。调整后总分6.5,更符合一篇提出特定领域数据集但技术深度有限、且与语音音频领域关联度低的论文的客观评价。
🚨 局限与问题
- 合成数据的泛化性鸿沟:数据集完全基于VirtualHome模拟器和单一“代理人”生成,无法捕捉真实世界家庭生活的复杂性,如多人交互、动态环境、物体状态变化、不同家庭文化习惯等。从模拟数据训练/评估的模型能否迁移到真实世界(如机器人视角的视频流问答)是巨大问号。
- 问题生成方法的局限性:问题高度依赖模板和LLM(
gpt-4o-mini)生成与改写。这导致:a) 问题分布受限于模板和LLM的“想象力”;b) 生成的问题可能反映LLM的偏见;c) 论文提到存在少量改写错误,但整体质量依赖于LLM性能,缺乏更鲁棒的保证。 - 评估指标与任务定义的单一性:仅使用精确匹配作为评估指标。在真实交互中,语义相近但不完全匹配的答案或部分正确的SPARQL可能也有价值。任务定义为“文本到SPARQL”,未探索其他可能更适合实际应用的输出形式(如直接返回答案或执行计划)。
- 对知识图谱本身质量的忽视:论文详细描述了知识图谱的规模和结构,但未评估或讨论该合成知识图谱本身的完备性、一致性和准确性。构建于其上的问答基准的质量上限受此限制。
- 实验分析深度不足:交互式方法失败的分析仅指出“达到最大轮次”,但未深入剖析是哪些具体的子任务(如实体链接、时间条件解析)导致了失败。缺乏对生成的SPARQL查询的错误类型分析(除了提及19.1%的语法错误)。
- 领域相关性有限:虽然论文属于自然语言处理和知识图谱领域,但其具体场景(家庭日常活动问答)与语音、音乐、音频处理的主流研究问题关联度很低。其提出的挑战和解决方案对音频领域研究者的直接启发有限。