Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs

📄 Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs #社交智能体 #大语言模型 #多模态生成 #信任校准 #性别公平性 📝 5.9/10 | 前50% | #社交智能体 | #大语言模型 | #多模态生成 #信任校准 | arxiv 学术质量 4.8/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Lucie Galland(LIS Laboratory, Aix-Marseille University) 通讯作者:未在论文中明确标注。 作者列表:Lucie Galland(LIS Laboratory, Aix-Marseille University),Chloé Clavel(Inria Paris),Magalie Ochs(LIS Laboratory, Aix-Marseille University) 💡 毒舌点评 这篇论文触及了一个至关重要且亟待探索的交叉点:利用LLM生成多模态行为以校准用户信任。其价值在于将经典的心理学信任理论与前沿的LLM生成能力进行了系统性嫁接,并通过大规模数据分析,犀利地揭示了LLM内嵌的“默认自信”与“性别刻板印象”两大行为偏见。然而,其核心贡献更接近于一次深刻的“现象学诊断”与“概念验证”,而非一个鲁棒的方法论突破。最致命的弱点在于其生成管线完全依赖一个未公开细节的闭源商业模型(GPT-5.4),这使得整个工作的科学基础和可复现性大打折扣。用户研究设计过于理想化(单一任务、固定模型),生态效度有限,未能解决生成行为中信任维度相互干扰这一关键问题。论文诚实地暴露了问题,但解决方案的缺失使其更像一篇优秀的“问题报告”,而非一篇完整的“方法论文”。 📌 核心摘要 要解决的问题:随着社会交互代理(SIA)进入敏感领域,校准用户信任至代理的实际能力至关重要。论文探索利用大语言模型(LLM)生成能反映不同“能力”和“善意”水平(信任的关键维度)的多模态行为(语言、语调、手势、表情)的可能性。 方法核心:提出了一种基于LLM的“带标签转录”生成方法。通过精心设计的、包含理论定义、任务场景和行为标签库的系统提示词,引导LLM(GPT-5.4)生成嵌入了特定手势、面部表情和语调标签的对话脚本。这些脚本随后可被渲染为多模态代理行为。 与已有方法相比新在哪里:与以往依赖专家标注数据集或规则驱动的方法不同,本方法利用LLM的零样本生成能力,以理论驱动的提示词为中介,自动化地生成反映抽象心理特质的多模态行为序列。这是首次系统性地评估LLM生成信任校准行为的能力,并深入分析其生成行为中固有的偏见。 主要实验结果: ...

2026-05-20 · 更新于 2026-06-12 · 2 min · 335 words