📄 GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction

#数据集 #多模态模型 #情感识别 #基准测试 #协作交互 #过程建模

✅ 6.8/10 | 前50% | #数据集 | #多模态模型 | #情感识别 #基准测试 | arxiv

学术质量 5.3/8 | 影响力 0.6/1 | 可复现性 0.9/1 | 置信度高

👥 作者与机构

第一作者：Meisam Jamshidi Seikavandi（1GN Advanced Science, GN Group, Ballerup, Denmark；2IT University of Copenhagen, brAIn lab, Copenhagen, Denmark）。根据论文脚注“These authors contributed equally.”，Meisam Jamshidi Seikavandi、Alice Modica和Anna Obara为共同第一作者。
通讯作者：未明确指定，但论文中将Meisam Jamshidi Seikavandi标注为“corresponding author”。
作者列表：Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner。机构涉及GN Advanced Science (GN Group), IT University of Copenhagen, Copenhagen Business School, Aalborg University。

💡 毒舌点评

这篇论文是一个扎实的“基础设施”工作。亮点在于其对数据集构建和发布的极高透明度要求：BIDS-inspired结构、Croissant元数据、详细的数据表、每会话质量报告，这为后续研究设立了一个可审计的标杆。它精准定位了多人、多模态、多层次（个体内/个体间/群体）情感分析数据集的空白，并通过精心设计的四个协作任务和同步的多传感器采集来填补。然而，短板也同样明显且根本：10组40人的样本量使得许多定义的“基准测试”在统计上形同虚设。论文中大量基准任务（特别是涉及个体间特质和群体动态的）的性能接近随机，其置信区间宽到无法得出任何稳健结论。这使得论文更像是一份“问题定义书”和“数据发布说明书”，而非一份能产出可靠科学发现的实验报告。基线模型的“失败”（如群体不平等性预测）更多暴露了数据量不足导致的过拟合，而非方法本身的缺陷。

📌 核心摘要

要解决的问题：现有情感计算和社交信号处理数据集很少支持将情感作为一个耦合的个体、人际和群体层次过程进行分析。关键的多模态信号（如生理、眼动、音频、自我报告、任务结果、人格）通常分散在不同的数据集中。
方法核心：本文核心是构建并详细描述了 GroupAffect-4 多模态数据集。该数据集包含40名参与者（10个四人小组），在结构化协作任务中同步采集每人佩戴的腕部生理传感器（EmotiBit， ~25Hz）、眼动追踪眼镜（Tobii Pro Glasses 3， 50Hz）、近讲麦克风（DPA 4060， 48kHz）数据，以及持续的情感自我报告（SAM量表）、任务后问卷、任务结果和人格测试（BFI-44）数据。所有数据通过Lab Streaming Layer (LSL)协议进行时间对齐。
与已有方法/数据集相比新在哪里：与现有数据集（如AMI, ELEA, AMIGOS, K-EmoCon等）相比，GroupAffect-4的独特之处在于它首次在公开发布的、同步的、四人共定位交互基准测试中，同时整合了可穿戴生理、自我中心视角眼动、近讲音频、情境内自我报告、结构化协作任务结果以及人格测量这六个关键维度。它旨在填补支持多层次（个体内状态、个体间特质、群体动态）耦合分析的数据集空白。
主要实验结果：论文定义了15个可基准测试的目标，跨三个分析层次，并使用留一组交叉验证（LOGO-CV）提供了基于Ridge/逻辑回归的基线结果。关键结果包括：
- 心理健康需求检测（B3a）是个体内状态信号中最清晰的，AUC达到0.719，主要由单个音频特征（语音重叠分数 audio_overlap_fraction_x）驱动。
- 效价（B1a）检测AUC为0.657，表现中等。
- 唤醒度（B1b， AUC 0.528）、支配感（B2， AUC 0.499）以及人格特质预测（B4a-c， AUC均在0.3-0.6之间且置信区间极宽）的性能接近或低于随机水平。作者指出这主要是由于当前小样本下交叉验证折数过少导致的评估不稳定，而非信号必然缺失。
- 群体内发言不平等性（B6a， Gini系数均值）的基线模型表现接近朴素基线，但其二元分类任务（B6b，发言比例标准差）能达到0.952的AUC，表明信号存在但任务窗口聚合特征不足以用简单回归捕捉。
- 操纵检查显示，协商任务（T2）引发了最显著的效价下降（Cohen‘s d = 1.06）。
实际意义：该数据集为研究共定位小组交互中的情感、认知和社交动态提供了一个标准化、高透明度的测试平台。它支持从生理唤醒、注意力到对话轮换动态和合作行为的多层次分析，有望推动情感计算、团队过程和社交信号处理领域的研究。
主要局限性：样本量小（仅10个小组，40人），限制了统计效力和结论的普适性；数据来自单一地点和语言（丹麦，英语）；任务顺序固定（T0-T4），无法区分任务效应与疲劳/熟悉度效应；原始音频因隐私风险需通过数据使用协议获取；版本1.0未包含视频和房间框架眼动数据。预处理中存在轻微的数据泄漏（个体内归一化在交叉验证分割前进行）。

🔗 开源详情

代码：https://github.com/meisamjam/GroupAffect-4
模型权重：论文中未提及模型权重。
数据集：GroupAffect-4数据集，可公开存档于 https://zenodo.org/records/20037847，采用CC BY 4.0协议（针对表格数据）。
Demo：论文中未提及Demo。
复现材料：处理脚本、数据表(Croissant)、质量报告、预处理流水线详情均在GitHub仓库中提供。
论文中引用的开源项目：
- Lab Streaming Layer (LSL): 论文中提及用于数据同步。
- BIDS (Brain Imaging Data Structure): 论文中提及采用“BIDS-inspired structure”。
- Croissant: 论文中提及发布了“Croissant metadata”。
- scikit-learn: 论文中提到基准测试使用了“Ridge regressor or logistic classifier”。
- Zenodo: 数据集托管平台。

🏗️ 方法概述和架构

整体流程概述：本文的方法核心是数据集的设计、采集、处理与基准测试框架。这是一个多阶段的流程：首先设计结构化任务与多传感器模态栈；然后在控制环境中同步采集多模态信号；接着进行数据清洗、对齐、特征工程与发布；最后基于处理后的特征表，定义多层次基准测试任务并报告基于简单模型的可行性基线。

主要组件/模块详解：

参与者与任务设计模块
- 名称：四人协作任务情境
- 功能：创建生态有效的交互情境，以诱发不同的情感、认知和社交动态。
- 内部结构/实现：包含四个主要任务：T1隐秘资料决策（信息整合）、T2迷你谈判（利益冲突与协商）、T3创意生成（协作创造）、T4公共品游戏（合作博弈），外加T0自由交谈基线。任务顺序固定（T0→T1→T2→T3→T4）。任务通过自定义Web应用推送到参与者平板和大屏幕，每个任务有预设的时间阶段和计时器。
- 输入输出：输入是研究者设计的任务脚本和角色卡。输出是通过LSL标记的结构化任务事件和可量化的行为结果（如T1决策、T2协议、T3获胜创意、T4贡献额度）。
多模态数据采集模块
- 名称：同步传感器阵列
- 功能：为每个参与者同步采集生理、视觉、听觉和行为数据。
- 内部结构/实现：
  - 生理：EmotiBit腕部传感器采集光电容积脉搏波（PPG）、电皮肤活动（EDA）、皮肤温度和惯性测量单元（IMU）数据，采样率约25Hz。
  - 眼动：Tobii Pro Glasses 3采集头部相对场景框架的凝视点、瞳孔直径和有效性标志，采样率50Hz。
  - 音频：DPA 4060近讲麦克风采集单声道音频（48kHz， 24bit），通过RME Fireface 802接口录制。
  - 自我报告：参与者平板上的SAM量表（效价、唤醒、支配， 1-9分）及任务后问卷。
  - 人格：会前完成的BFI-44问卷。
  - 同步：所有设备通过Lab Streaming Layer (LSL)连接到公共时钟，使用Extensible Data Format (XDF)格式记录。对于音频设备（DPA 4060），需要进行单独的线性时钟漂移校正（约0.04 ms/s）。
- 输入输出：输入是参与者的实时生理和行为信号。输出是时间对齐的原始流数据文件。
数据处理与特征工程与发布模块
- 名称：BIDS-inspired处理流水线
- 功能：将原始数据清洗、对齐、提取特征，并组织成符合FAIR原则的标准格式。
- 内部结构/实现：
  1. 任务窗口划分：根据LSL事件标记切分每个任务阶段的数据。
  2. 质量控制（QC）：对每个模态进行通道级QC。例如，生理值进行合理性范围检查（如HR∈[40,180] bpm），眼动进行有效性检查。详细的QC通过率在表4和附录L中报告。
  3. 特征提取：从各模态计算任务窗口内的汇总统计量（均值、标准差、相对于基线T0的变化量等）。例如，从音频提取openSMILE GeMAPSv01b特征（如能量、音高、说话比例、重叠比例），从生理提取HR/HRV/EDA指标，从眼动提取瞳孔直径统计量。
  4. 基准测试预处理流水线：一个五步流程：（i）眼动质量门控（缺失或无效比例过高的数据置NaN）；（ii）生理合理性门控；（iii）±3σ缩尾处理；（iv）个体内鲁棒z-score归一化（使用中位数和MAD，跨T1-T4计算）；（v）折内KNN插补（k=5）。
  5. 特征选择：全局特征选择（去除>50%缺失和|r|>0.95的高相关特征），最终保留35个特征用于分析，其中31个特征（排除4个注释过程元数据特征）用于基准测试。
  6. 数据发布：以BIDS-inspired结构组织文件，包含Croissant元数据、数据表（Datasheet）、每会话QC报告和开放处理脚本。表格数据采用CC BY 4.0协议。
- 输入输出：输入是原始多模态数据流和事件标记。输出是结构化的、特征化的表格数据（按参与者-任务组织），以及完整的元数据和文档。
基准测试与评估模块
- 名称：多层次基准测试框架
- 功能：定义可量化的研究目标，并使用标准化协议评估数据集支持这些目标的能力。
- 内部结构/实现：
  - 层次定义：Level 1（个体内状态，如情感、认知负荷，单位为参与者-任务）；Level 2（个体间特质，如人格，单位为参与者）；Level 3（群体动态，如发言不平等性，单位为小组-任务）。
  - 评估协议：使用留一组交叉验证（LOGO-CV，按小组group_id分割），确保测试集中的参与者与训练集无交互上下文。使用基线模型：Ridge回归（连续目标）或逻辑回归（分类目标），采用scikit-learn默认参数。
  - 模态使用差异：个体内状态目标（B0-B3d）使用个体内归一化特征；个体间特质目标（B4a-B5）使用原始delta特征（生理/瞳孔）和绝对值音频特征。
  - 指标：分类任务使用AUC和准确率，回归任务使用MAE。
- 输入输出：输入是处理后的特征表和定义的基准任务目标。输出是每个基准任务的折平均性能、标准差和95%置信区间，以及特征重要性分析和模态消融结果。

组件间的数据流与交互：数据从参与者通过传感器采集（模块2），在任务设计模块（模块1）定义的时间窗口内被LSL标记切分和对齐。处理模块（模块3）进行质量控制和特征提取，生成标准化的特征表。最终，这些特征表作为输入馈送到基准测试模块（模块4），以评估数据集的价值。这是一个线性的、管道式的数据流，模块间通过标准化的中间数据格式（特征表）连接。

关键设计选择及动机：

高密度而非大规模：作者明确选择“密度而非规模”（引言），优先为每个参与者同时提供多维信号，以支持跨层次（个体-人际-群体）的耦合分析，这是现有分散数据集无法做到的。
结构化任务而非完全自然主义：任务在控制的实验背景下进行，提供了清晰的时间边界和可量化的结果，增强了数据的可审计性，同时保留了任务内互动的生态真实性。
多层次基准测试：定义三个分析层次的目标，不仅是为了评估数据集，更是为了揭示不同模态在不同分析层次上的互补性与局限性，这本身是一种方法论上的贡献（讨论部分）。
透明化与文档：采用BIDS结构、Croissant元数据、详细的数据表和QC报告，旨在最大化数据的FAIR原则（引言，第5节），这是对当前数据集发布实践的重要贡献。

架构图/流程图：图1展示了整个研究设计的核心架构。左侧的实验室布局图显示了四名参与者（P1-P4）围绕桌子的座位安排、七个摄像头位置和用于校准的ArUco标记，说明了物理环境。右上的场景照片展示了参与者佩戴的设备（Tobii眼镜、EmotiBit传感器、领夹麦克风）和用于自我报告的平板电脑，直观呈现了模态采集栈。右下的时间线图是关键流程图，它清晰地描绘了会话结构：从基线（T0）开始，依次进行四个协作任务（T1到T4），并在任务期间按计划收集VAD探针。这张图将研究设计（参与者、设备）、任务流程和数据采集时机三个核心方面整合在一起。

💡 核心创新点

多层次、高密度、同步化数据整合：将通常分散在不同研究传统中的关键信号（可穿戴生理、自我中心眼动、近讲音频、情境内自我报告、任务结果、人格）首次整合到一个公开发布的、同步的四人共定位交互数据集中。这旨在解决现有数据集在支持“群体情感作为耦合过程”分析方面的碎片化问题（引言，第2节）。
多层次、可基准测试的评估框架：明确定义了跨越个体状态、个体特质和群体动态三个层次的15个可量化的基准测试任务（第6节）。这不仅提供了数据集的可行性基线，也为未来研究提供了清晰的评估路径，并揭示了不同模态在不同分析层次上的效用差异。
高透明度与FAIR原则实践：采用BIDS-inspired数据结构、Croissant元数据、详尽的数据表、每会话质量报告和完整的处理脚本（第5节）。这种对文档、同步协议和开放标准的严格遵守，显著提升了数据集的可信度、可复用性和对领域的长期价值。

📊 实验结果

主要基准测试结果（来自论文表3）：论文报告了使用31特征集、LOGO-CV评估的基线结果。关键指标如下表所示：

基准ID	目标	n	指标	模态	平均性能 (标准差)	95% 置信区间	解读
B0	任务标签分类（sanity check）	136	Acc.	Ph+Pu+Au	0.641 (0.132)	[0.55, 0.73]	高于随机基线(0.265)，证明任务可区分。
Level 1 - 个体内状态
B1a	效价（高/低）	107	AUC	All	0.657 (0.110)	[0.58, 0.73]	中等性能，高于随机(0.5)。
B1b	唤醒度（高/低）	107	AUC	All	0.528 (0.114)	[0.45, 0.60]	接近随机水平。
B2	支配感（高/低）	83	AUC	Ph+Pu+Au	0.499 (0.186)	[0.37, 0.62]	接近随机水平。
B3a	心理需求（高/低）	99	AUC	All	0.719 (0.142)	[0.62, 0.81]	最强信号，显著高于随机。
B3b	参与度（高/低）	99	AUC	All	0.591 (0.136)	[0.50, 0.69]	略高于随机。
B3c	满意度 (T2-T3)†	60	AUC	All	0.571 (0.213)	[0.419, 0.733]	略高于随机。
B3d	信任池化 (T2, T4)†	60	AUC	All	0.562 (0.221)	[0.406, 0.711]	接近随机。
B3d T4-only	信任 (仅T4)†	28	AUC	All	0.679 (0.220)	[0.536, 0.857]	在合作性任务中表现改善。
Level 2 - 个体间特质
B4a	BFI外向性（挑战）‡	32	AUC	Pt-mean all	0.396 (0.353)	[0.17, 0.65]	接近或低于随机，样本量小导致不稳定。
B4b	BFI开放性（挑战）‡	32	AUC	Pt-mean all	0.306 (0.244)	[0.11, 0.50]	接近或低于随机。
B4c	BFI宜人性（挑战）†	31	AUC	Pt-mean all	0.604 (0.424)	[0.292, 0.875]	略高于随机，但置信区间很宽。
B4c (top-2 T2 feats)	BFI宜人性†	31	AUC		0.625 (0.317)	[0.406, 0.844]	使用T2任务特定特征时略高。
B5	T4贡献（中位数分裂）	28	AUC	Pt-mean all	0.429 (0.290)	[0.21, 0.64]	接近或低于随机。
Level 3 - 群体动态
B6a	发言基尼系数（均值）	38	MAE	Ph+Pu+BFI	0.089	—	接近朴素基线。
B6b	发言基尼系数（标准差）†‡	28	MAE	Ph+Au	0.102 (0.053)	[0.068, 0.140]	略低于朴素基线(0.088)，回归失败。
B6b binary	发言基尼系数（标准差，二元分类）†	28	AUC		0.952 (0.117)	[0.857, 1.000]	证明信号存在但任务窗口聚合特征不足以回归。
B7	语音重叠分数	38	MAE	Ph+Pu+BFI	0.063	—	接近朴素基线。

关键消融与特征分析结果：

模态消融（见图15）：音频在任务分类（B0）和心理需求检测（B3a）中占主导。瞳孔和音频在认知状态检测上联合提供最强信号。生理信号主要对唤醒敏感的目标（如B1a效价）有贡献。
特征重要性（见图2，图16）：audio_overlap_fraction_x（语音重叠分数）是多个基准测试（尤其是B3a心理需求）的最重要特征。B3a（心理需求）和B3b（参与度）的特征重要性谱截然不同：B3a由音频重叠主导，B3b则由瞳孔斜率和音高主导，证实了这两个构念的可分离性。
跨模态相关性（见图14）：瞳孔特征与生理特征相关性极低（|r|<0.10），表明它们提供部分正交的信息。与自我报告的相关性显示，音频重叠分数与心理需求感知呈强负相关（r=-0.62），瞳孔扩张与心理需求呈正相关（r=+0.36）。

操纵检查结果（见图3）： T2协商任务引发了最显著的效价下降（Cohen‘s d = 1.06， p=2.4e-9），且所有10个小组均超时完成（平均11.4分钟），证明任务成功诱发了预期的情感和行为分化。群体信任在T2和T4后均保持在量表中点以上，表明总体合作基调，但T2到T4的Trust变化在统计上不显著（t(38)=0.96, p=0.34）。

🔬 细节详述

训练数据：GroupAffect-4数据集本身是评估对象。数据来自10个四人小组（共40名参与者），在GN集团（丹麦）的实验室中录制。参与者为内部员工和关联大学社区成员，平均年龄35.4岁，性别比例接近平衡（21女/19男）。参与者间熟悉度极低（平均1.68/7）。
损失函数：基准测试基线使用Ridge回归（用于连续目标）和逻辑回归（用于分类目标）。这是标准的L2正则化线性模型，没有提出新的损失函数。
训练策略：使用留一组交叉验证（LOGO-CV），分组键为group_id，确保测试集中的参与者与训练集无交互上下文。每个基准任务独立训练基线模型。对于个体间特质目标（B4a-B5），使用参与者水平的特征（任务内均值）。
关键超参数：
- Ridge/逻辑回归：使用scikit-learn默认参数（alpha=1.0 for Ridge， C=1.0 for LogisticRegression）。
- 预处理：个体内归一化使用中位数和MAD（1.4826×MAD）。KNN插补使用k=5。缩尾处理阈值为±3σ。
- 特征集：最终使用35个特征（后排除4个注释过程特征，实际基准测试用31个特征）。
训练硬件：未提供具体信息。论文指出所有基准测试使用标准CPU工作站即可运行，无需GPU（第6节）。
推理细节：对于基线模型，推理即为模型的预测。对于分类任务报告AUC和准确率，对于回归任务报告MAE。
正则化或稳定训练技巧：Ridge回归本身包含L2正则化。预处理中的缩尾处理和归一化有助于稳定训练。

⚖️ 评分理由

创新性：2.0/3 论文的创新在于其系统性的“整合”与“框架定义”工作，而非提出一个全新的算法。它精准地识别了现有情感计算数据集在支持多人、多模态、多层次分析方面的关键缺口，并构建了一个高质量的资源来填补这个缺口。定义多层次基准测试框架的思路也很有价值。但在数据集构建和发布模式上的创新（BIDS, Croissant）虽有价值，却不具算法突破性。主要贡献是基础设施层面的，这在NeurIPS等顶会的审稿标准下，创新性权重通常较低。

技术严谨性：1.5/2 数据集构建和处理流程技术严谨、文档详尽。包括详细的同步协议、质量控制步骤、统计检验（如操纵检查的效应量）。基准测试设计（LOGO-CV）合理。扣分点在于：（1）预处理存在程序瑕疵：个体内归一化在LOGO-CV分割前进行，作者承认这引入了轻微的数据泄漏（第5节）；（2）特征选择也在分割前进行，虽作者声称影响小，但严格来说是不规范的；（3）由于样本量极小，许多基准测试的性能估计本身就不稳定（宽置信区间），这削弱了“可行性基线”的可靠性。

实验充分性：1.0/2 实验旨在评估数据集而非提出新方法，因此基线模型（Ridge/逻辑回归）的选择是合理的“可行性”定位。论文提供了多层次基准结果、模态消融、特征重要性分析。主要扣分点在于：受限于仅10个小组的数据规模，Level 2（个体间特质）和Level 3（群体动态）的大部分基准任务在统计上无法提供有意义的结论。这些“挑战性基准”的性能接近随机，其“失败”更多归因于数据量不足，而非目标本身不可行或方法无效。这使得实验部分作为“可行性论证”的强度大打折扣。

清晰度：0.8/1 论文组织极其清晰。从问题陈述、数据集设计、处理流程、基准定义到结果分析，逻辑链条完整。附录提供了大量细节。图表有效传达了关键信息。写作质量高。仅因篇幅极长，部分读者可能需要耐心阅读。

影响力：0.6/1 该数据集对情感计算、社交信号处理、团队过程等领域有直接的积极影响，为研究多人交互提供了标准化平台。其强调的多层次分析和高透明度发布模式可能成为参考。然而，影响力被其根本性局限严重制约：样本量太小（10个小组）使得该数据集目前不适合作为评估新模型的可靠基准或排行榜。它更适合作为初步探索的沙盒，或为未来更大规模数据收集提供蓝图。在当前形态下，其实际可用性和影响力有限。

可复现性：0.9/1 可复现性优秀。数据集公开存档于Zenodo，附有完整元数据。处理脚本和基准测试代码公开于GitHub。论文详细描述了处理流水线、特征选择和评估协议。原始音频需通过数据使用协议获取，但这出于伦理考虑。这满足了数据集论文可复现性的高标准。

综合以上维度，本文作为一篇数据集发布论文，在文档和透明度上表现优异，但在支撑可靠科学发现的实验充分性和数据集实际可用性（因样本量小）上存在重大缺陷。评分从7.5下调至6.5，以反映这些根本性问题。

🚨 局限与问题

论文明确承认的局限：
- 样本量小：仅10个小组（40人），限制了统计功效，使得个体间特质预测（B4）等基准测试结果不稳定，LOGO-CV测试折仅4人，导致AUC估计不准确。
- 单一地点与语言：所有数据在丹麦用英语采集，可能影响结果的文化和语言普适性。
- 固定任务顺序：T0-T4顺序固定，无法分离任务本身效应与疲劳、熟悉度效应（如T4的合作性可能受到T1-T3建立的团队氛围影响）。
- 模态限制：版本1.0未包含视频和房间框架眼动数据；原始音频因隐私风险受限。
- 预处理泄漏：个体内归一化在LOGO-CV分割前完成，对B0-B3d的性能估计构成轻微的乐观偏差。
审稿人发现的潜在问题：
- 基准测试结果的根本性问题：Level 2和Level 3的大部分基准任务因样本量过小而实质上不可靠。论文将B4（人格）和B5（贡献）的低性能归因于评估不稳定，这很可能正确，但这意味着数据集在这些层次上目前并未提供可验证的、可扩展的基准。论文定义了15个目标，但可能只有B0、B1a、B3a等少数Level 1目标提供了初步的、值得进一步验证的信号。
- 模态不对称性的影响：音频特征在个体内任务（B0-B3）中使用归一化（跨T1-T4），在个体间任务（B4-B5）中使用绝对值。这种设计基于T0不可靠的合理理由，但使得跨基准的模态贡献比较（如图15消融）需要格外谨慎。
- 任务生态效度与泛化性：实验室环境、陌生人配对和固定指令可能限制了某些自然涌现的社会动态（如长期信任建立、角色形成）的强度。任务诱发的情感可能具有情境特异性。
- 特征工程与模型选择：基线模型极为简单（Ridge/逻辑回归），且特征工程（如3σ缩尾、KNN插补）相对传统。这符合“可行性基线”定位，但也意味着未能探索更复杂模型或端到端学习是否能从数据中挖掘更多信息。然而，考虑到n=10小组，使用更复杂模型很可能导致严重过拟合。
- 结论的稳健性：由于上述所有问题，论文中许多“发现”（例如不同模态在不同层次的作用）目前仅能视为假设生成，而非稳健结论。需要远大于此的数据集（如作者在讨论中建议n≥20小组）来验证。

📷 论文图片

← 返回 2026-05-20 语音/音乐/音频论文速递

📄 GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文