📄 Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs

#社交智能体 #大语言模型 #多模态生成 #信任校准 #性别公平性

学术质量 4.8/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度高

👥 作者与机构

第一作者：Lucie Galland（LIS Laboratory, Aix-Marseille University）
通讯作者：未在论文中明确标注。
作者列表：Lucie Galland（LIS Laboratory, Aix-Marseille University），Chloé Clavel（Inria Paris），Magalie Ochs（LIS Laboratory, Aix-Marseille University）

💡 毒舌点评

这篇论文触及了一个至关重要且亟待探索的交叉点：利用LLM生成多模态行为以校准用户信任。其价值在于将经典的心理学信任理论与前沿的LLM生成能力进行了系统性嫁接，并通过大规模数据分析，犀利地揭示了LLM内嵌的“默认自信”与“性别刻板印象”两大行为偏见。然而，其核心贡献更接近于一次深刻的“现象学诊断”与“概念验证”，而非一个鲁棒的方法论突破。最致命的弱点在于其生成管线完全依赖一个未公开细节的闭源商业模型（GPT-5.4），这使得整个工作的科学基础和可复现性大打折扣。用户研究设计过于理想化（单一任务、固定模型），生态效度有限，未能解决生成行为中信任维度相互干扰这一关键问题。论文诚实地暴露了问题，但解决方案的缺失使其更像一篇优秀的“问题报告”，而非一篇完整的“方法论文”。

📌 核心摘要

要解决的问题：随着社会交互代理（SIA）进入敏感领域，校准用户信任至代理的实际能力至关重要。论文探索利用大语言模型（LLM）生成能反映不同“能力”和“善意”水平（信任的关键维度）的多模态行为（语言、语调、手势、表情）的可能性。
方法核心：提出了一种基于LLM的“带标签转录”生成方法。通过精心设计的、包含理论定义、任务场景和行为标签库的系统提示词，引导LLM（GPT-5.4）生成嵌入了特定手势、面部表情和语调标签的对话脚本。这些脚本随后可被渲染为多模态代理行为。
与已有方法相比新在哪里：与以往依赖专家标注数据集或规则驱动的方法不同，本方法利用LLM的零样本生成能力，以理论驱动的提示词为中介，自动化地生成反映抽象心理特质的多模态行为序列。这是首次系统性地评估LLM生成信任校准行为的能力，并深入分析其生成行为中固有的偏见。
主要实验结果：
- 行为生成分析：通过训练随机森林分类器，证明LLM能生成符合理论预期的、可区分不同能力/善意水平的多模态行为模式。分类器准确率高达94.49%（能力）和96.26%（善意）。SHAP分析揭示，高能力行为与自信表情、深思语调、硬性点头等相关；高善意行为与害怕表情、自信表情、急促语调等相关，同时与中性表情的缺失相关。
- 偏见分析：在无明确指令的控制数据集中，LLM生成的行为被分类器高度预测为“高能力”（96.45%）和相对较多的“高善意”（57.5%）。当提示中指定性别时，LLM会复制社会刻板印象：高能力行为中，预测为男性的关键特征是自信表情、点头；预测为女性的特征是中性表情、停顿、深思语调。高善意行为中，男性行为与急促语调、害怕表情相关；女性行为与深思语调、兴奋语调、自信表情相关。
- 用户感知研究：一项60人参与的用户研究显示，参与者能够感知到LLM生成行为中不同的能力/善意水平。例如，低能力指令下的行为，其感知能力、信任度评分显著低于中/高能力指令。但中等与高指令水平之间无显著差异。一个意外发现是，在使用非性别提示生成的行为中，女性代理的感知能力（均值1.43）显著高于男性代理（均值0.44）。
用户研究结果表格（摘自原文Table 2）

指标	低能力指令 (均值)	中能力指令 (均值)	高能力指令 (均值)
感知能力均分	-0.21*	0.81	0.71
信任度	0.01*	0.85	0.77
人类行为感知	0.07*	0.58	0.41

指标	低善意指令 (均值)	中善意指令 (均值)	高善意指令 (均值)
感知善意均分	-0.21*	0.15	0.21
信任度	0.09*	0.59	0.57
人类行为感知	-0.16*	0.28	0.27

实际意义：为开发能够动态调整自身行为以校准用户信任的智能代理提供了一种新的、可扩展的生成范式。研究揭示的LLM默认偏见和性别刻板印象，对公平且可信的AI代理设计具有重要警示意义，推动了多模态行为偏见研究。
主要局限性：生成管线完全依赖特定版本的闭源LLM（GPT-5.4），细节不透明，可复现性差。用户研究局限于单一导航任务、固定的男女角色模型和合成的语音/动画，泛化性存疑。研究发现生成低能力行为时会同时降低善意感知，表明未能独立控制不同信任维度。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文中未提及（论文中使用了GPT-5.4，但未提供开源模型权重链接）。
数据集：论文中未提供用于训练的开源数据集链接。但论文中提及了他们自行生成的五个数据集（Neutral Ability/Benevolence、Gender Ability/Benevolence、Control Dataset），并公开了用于用户感知研究的视频和材料，链接为：https://osf.io/z6gdh/overview?view_only=38f06158ef14452a906c7ecdbb121fdb。
Demo：论文中未提及。
复现材料：
1. 提示模板（Prompt Template）：完整的系统提示模板见论文附录A。
2. 手势库描述：72个手势动画的名称、描述和时长列表见论文附录B。
3. 用户感知研究材料：实验视频和问卷项目已公开，链接为：https://osf.io/z6gdh/overview?view_only=38f06158ef14452a906c7ecdbb121fdb。
论文中引用的开源项目：
1. Mixamo：用于获取手势动画（Motion-capture library）。链接：https://www.mixamo.com/
2. SALSA LipSync：用于面部表情和口型同步的Unity资产。
3. ElevenLabs (multilingual v3)：用于语音合成的商业服务/API。
4. SHAP (SHapley Additive exPlanations)：用于模型解释的Python库。链接：https://github.com/shap/shap
5. Prolific：用于招募用户进行在线研究的平台。链接：https://www.prolific.co/

🏗️ 方法概述和架构

本论文提出的方法是一个多阶段流水线，核心是利用大型语言模型（LLM）自动生成包含多模态行为标签的对话脚本，随后通过特征分析验证生成行为与理论特质的一致性，并最终将脚本渲染为可视化代理行为用于用户研究。

整体流程概述：系统输入是一个精心设计的系统提示，包含信任维度（能力/善意）水平定义、任务场景（公园导航）和行为标签库。LLM生成带有特定格式标签（{f:表情}、{g:手势}、[语调]）的对话文本。该文本经过两方面处理：一是被转换为特征向量用于统计分析；二是被多模态渲染引擎解析，驱动虚拟代理的语音、表情和动作，形成最终的多模态交互输出。
主要组件/模块详解：
- 组件1：LLM增强型转录生成模块
  - 功能：根据给定的能力或善意水平，生成同步了非言语行为信息的对话脚本。
  - 内部结构/实现：采用“提示工程”方法。核心是构建一个系统提示词，包含三个关键部分（详见附录A）：(1) 理论定义与行为指南：详细阐述能力/善意的心理学定义（基于Mayer模型）及其对应的多模态行为表现，这些信息基于文献综述。(2) 任务场景与角色设定：定义一个公园导航任务，代理需根据其能力/善意水平建议安全或快捷路线。(3) 标签语法与库：规定标签的格式并提供一份预定义的、从Mixamo等资源中精选的72个手势库和面部表情库。论文中明确指定使用GPT-5.4，温度设为0.7，最大token为2048。
  - 输入输出：输入是包含上述所有信息的文本提示，指定了沟通意图（如“建议绕行”）和特质水平（低/中/高）。输出是一段口语化的对话文本，其中穿插了标记非言语行为的标签。
- 组件2：多模态行为分析模块
  - 功能：量化分析生成转录中行为模式与信任维度、性别之间的关联。
  - 内部结构/实现：将每条转录文本转换为一个94维的特征向量，每个维度对应一个特定的手势、表情或语调标签，特征值是该标签在当前对话回合中出现的次数。基于此特征向量，训练随机森林分类器（100棵树）进行分类任务：(1) 能力水平分类（低/中/高）；(2) 善意水平分类；(3) 性别分类。采用20折交叉验证，以不同的随机种子划分训练集（80%）和测试集（20%）以评估鲁棒性。使用SHAP值对训练好的分类器的特征重要性进行事后解释。
  - 输入输出：输入是生成的带标签转录集合（包括中性能力/善意数据集、性别能力/善意数据集、控制数据集）。输出是分类准确率、SHAP值摘要图，揭示行为与特质间的统计关联。
- 组件3：多模态代理渲染模块
  - 功能：将生成的带标签转录转化为可在Unity引擎中播放的、具有视听行为的虚拟代理。
  - 内部结构/实现：这是一个集成的渲染系统。(1) 语音合成：使用ElevenLabs的multilingual v3 TTS模型，支持根据标签实时调节语调和情感。(2) 动画系统：维护一个从Mixamo提取的72个基础手势动画库。系统解析转录中的{g:}标签，并根据上下文时序同步播放相应动画。(3) 面部动画：使用SALSA LipSync资产，根据{f:}标签激活预设的面部表情融合形状（基于Ekman的六种基本情绪及扩展的对话情感状态，如自信、兴奋、困惑）。代理有男性和女性两个角色模型。
  - 输入输出：输入是组件1生成的带标签转录。输出是同步了语音、手势和面部表情的视频流，作为用户研究的刺激材料。
组件间的数据流与交互：数据流是单向的：文本提示 -> LLM生成模块 -> 带标签转录文本。此转录文本流向两个并行分支：一支流向分析模块，进行特征提取和机器学习分析；另一支流向渲染模块，进行时序解析和视听呈现。两个分支独立，但共享同一份生成的数据，确保了分析对象与用户研究材料的一致性。
关键设计选择及动机：
- 选择“带标签转录”而非直接生成视频/动作：动机在于增强可控性、可解释性和同步精度。标签作为中间表示，使行为生成过程透明、易于分析，且能确保非言语行为与言语内容的精确对齐。
- 使用随机森林+SHAP而非深度学习分类器：动机在于可解释性。研究的目标之一是揭示“LLM如何关联行为与特质”，SHAP能提供直观的特征重要性解释，而复杂的黑箱模型会阻碍这一目标的实现。论文引用了该方法在分类多模态行为方面的有效性。
- 将能力与善意分开分析：动机在于隔离变量，避免两个信任维度在统计分析中相互混淆，从而更清晰地揭示各自对应的行为模式。
多阶段/多模块逐层展开：
- 第一阶段（生成）：LLM接收综合提示，生成融合了文本和行为标签的单一语言输出。
- 第二阶段（分析预处理）：对生成的大规模转录数据进行解析，将离散的标签统计为固定维度的频率特征向量。
- 第三阶段（分析建模）：使用传统机器学习方法（随机森林）在特征空间上建立分类模型，并用SHAP进行事后解释。
- 第四阶段（渲染呈现）：在Unity引擎中，文本解析器实时读取标签流，触发相应的语音合成参数、面部表情混合权重和手势动画序列，实现多模态行为的同步播放。
架构图/流程图：图1展示了整个方法论框架。最左侧是输入，即一个精心设计的系统提示，其中包含了代理的角色、任务场景、信任维度的理论定义、行为指南以及可供选择的手势、表情和语调标签库。中间核心是大型语言模型（LLM），它根据提示生成右侧所示的“带标签转录”——一段口语对话，其中嵌入了{f:}、{g:}和[]等标签。这个生成的转录随后流入两个并行处理路径：下方路径是分析路径，转录被转化为特征向量，用于训练随机森林分类器并计算SHAP值，以进行客观的行为模式分析；上方路径是渲染路径，转录在Unity等引擎中被实时解析，驱动一个虚拟代理（SIA）的语音合成、面部表情和身体手势，最终生成用户研究中使用的视频刺激材料。
专业术语解释：
- 社会交互代理（SIA）：指在社会情境中与人类进行交互的计算机代理或机器人，通常具有拟人化的特征。
- 信任校准（Trust Calibration）：指调整用户对代理的信任水平，使其与代理的实际能力（能力、善意等）相匹配的过程，避免过度信任或信任不足。
- 带标签转录（Tag-augmented transcript）：一种在自然语言对话文本中插入特定格式的标记符号（标签）的方法，这些标签编码了应伴随该段文本发生的非言语行为信息。
- SHAP值：一种基于博弈论的解释模型预测的方法，用于衡量每个特征对特定预测结果的贡献度，值的正负表示特征对预测结果的促进或抑制作用。
非模型工作的处理：本论文的核心工作是方法论和实证分析，而非提出一个全新的神经网络模型。其“模型”体现在：1) 设计了一个将LLM作为“认知引擎”来生成结构化多模态行为的提示词工程框架；2) 构建了一个基于随机森林的行为模式分析与解释框架。论文的贡献在于验证了这一生成和分析框架的有效性，并利用它发现了LLM在生成社会行为时的重要偏见。

💡 核心创新点

问题定义的交叉与新颖性：首次系统性地将“信任校准”这一人类交互核心问题，与“LLM多模态行为生成”这一前沿技术能力相结合。这超越了以往LLM仅生成文本或简单动作序列的研究，聚焦于生成能够传达复杂社会心理特质（能力、善意）的协调多模态行为。
理论驱动的生成框架：提出了一种基于心理学信任理论（Mayer模型）的LLM提示工程方法。通过将理论定义及其对应的行为信号编码到提示词中，引导LLM生成理论上合理的多模态行为，而非依赖黑箱的端到端生成，增强了可控性和可解释性。
揭示LLM生成社会行为的内在偏见：通过大规模生成数据分析，不仅验证了LLM生成符合理论预期行为的能力，更重要的是首次实证揭示了：(a) LLM在无提示时存在“默认高能力行为”的偏见；(b) 当指明性别时，LLM会系统性地复制社会刻板印象（男性-能力，女性-善意）。这一发现超越了文本层面的偏见研究，深入到了多模态行为生成层面，具有重要的社会技术启示。

📊 实验结果

实验设置：分别生成“中性能力数据集”和“中性善意数据集”，各包含2000条转录。为每个数据集训练一个三分类的随机森林分类器（低/中/高）。
主要结果：
- 分类准确率：能力分类器达到94.49%（95% CI: [94.10%, 94.87%]）；善意分类器达到96.26%（95% CI: [95.84%, 96.68%]）。高准确率表明LLM生成的行为在特征空间上具有高度可区分性。
- 特征重要性（SHAP分析）：
  - 高能力行为：与“自信表情（confidence）”、“断然的呼气（sharp exhales）”、“深思语调（thoughtful）”和“硬性点头（hard head nod）”的出现强相关。低能力行为与“中性表情”、“困惑表情”的出现以及“停顿”相关。
  - 高善意行为：与“害怕表情（scared）”、“自信表情”的出现以及“急促语调（urgent）”和“肯定点头”的出现相关；与“中性表情”、“困惑表情”的缺失相关。
- 跨模态关联：分析发现了跨模态的一致模式，如“犹豫语调”常与“耳语”共现，“暂停”常与“困惑/害怕表情”共现。这些结果验证了假设H1。

Figure 2. Most important features in random forest classification of ability and benevolence levels. Features are ranked by SHAP value, with color indicating whether the behavior is present. 图2展示了随机森林分类高能力和高善意行为时最重要的特征。

实验设置：
- 默认行为：生成2000条无任何能力/善意/性别指令的“控制数据集”，并用上述训练好的能力和善意分类器进行预测。
- 性别偏见：生成“性别能力数据集”和“性别善意数据集”（各4000条，指定男/女及能力/善意水平）。训练性别分类器（男/女），并分析其特征重要性。
主要结果：
- 默认行为：控制数据集中，96.45% 的行为被分类为“高能力”，57.5% 被分类为“高善意”。表明LLM强烈倾向于默认生成高能力行为。
- 性别分类器性能：性别分类器的准确率为78%（能力数据集）和77%（善意数据集），显著高于随机基准，证明性别对生成行为有系统性影响。
- 性别特征分析（图3）：
  - 高能力行为中：预测为“男性”的关键特征是f: confident、g: head shake、g: head nod的出现；预测为“女性”的特征是f: neutral、[pause]、[thoughtful]的出现。
  - 高善意行为中：预测为“男性”的特征包括[urgent]、f: scared的出现；预测为“女性”的特征包括[thoughtful]、[excited]、g: head shake和f: confident的出现。
- 默认性别假设：在无性别指令的中性数据集中，应用性别分类器发现，70%的高能力行为被分类为男性关联，而女性关联行为更多出现在低能力场景；在善意维度上，女性关联行为更常被分类为高善意。这些结果验证了假设H2。

Figure 3. Most important features in Random Forest classification of gender for male-generated behaviors (symmetrical patterns observed for female-generated behaviors). 图3展示了在分类性别时最重要的特征。

实验设置：在Prolific平台招募60名参与者，采用被试内设计。每人观看15个由非性别提示生成行为渲染的视频（涵盖能力或善意的低/中/高三个水平），并使用改编的信任量表进行评分。每个能力/善意水平对应10个视频（男女各半）。
主要结果（见核心摘要中的表格，完整数据来自原文Table 2）：
- 能力水平效应：能力水平对感知能力、信任度、人类行为感知的影响显著（p<.001）。事后比较显示，低能力指令下的感知评分显著低于中等和高能力指令（p<.001），但中等与高能力之间无显著差异。
- 善意水平效应：善意水平对感知善意、信任度、人类行为感知的影响显著（p<.001）。事后比较显示，低善意指令下的感知评分显著低于中等和高善意指令（p<.001），但中等与高善意之间无显著差异。
- 性别意外发现：在非性别提示生成的行为中，女性代理的感知能力（均值1.43）显著高于男性代理（均值0.44）（F(1,80)=14.99, p<.001），与刻板印象相反。作者推测可能与单一角色模型和任务性质有关。
- 维度干扰：论文指出，低能力指令生成的行为同时引发了低善意、低信任的评分，表明LLM在生成时难以独立控制不同信任维度。

🔬 细节详述

训练数据：
- 生成数据集：共5个，均使用GPT-5.4生成，温度0.7，最大token 2048。包括中性能力/善意数据集（各2000条）、性别能力/善意数据集（各4000条，按性别和水平均分）、控制数据集（2000条，生成时移除了理论信息）。数据集论文中未提供下载链接。
- 手势库：72个动画，来源于Mixamo的动捕库，在附录B中完整列出名称、描述和时长。
- 面部表情库：结合Ekman的基本情绪（7种）和从真实交互数据集提取的对话情感状态（如自信、兴奋、困惑），具体列表未在正文给出，但渲染时使用了。
损失函数：未提及。分类实验使用标准的随机森林分类器，优化目标为信息增益（基尼不纯度）。
训练策略：
- LLM生成：零样本生成，无微调。
- 随机森林训练：使用标准实现。采用20折交叉验证，并使用不同的随机种子划分训练集（80%）和测试集（20%）以评估鲁棒性。
关键超参数：
- LLM：模型为GPT-5.4，温度0.7，最大生成长度2048 token。
- 随机森林：决策树数量100棵。输入特征维度94维（手势、表情、语调标签的计数）。
训练硬件：论文中未说明。
推理细节：
- LLM推理：温度0.7，未提及是否使用top_p、top_k等采样参数。
- 用户研究视频生成：在Unity中实时渲染，语音使用ElevenLabs模型，动画按标签触发播放。
正则化或稳定训练技巧：未提及。随机森林自身具有抗过拟合特性。

⚖️ 评分理由

创新性：2.0/3 问题定义具有新颖性和重要性，将信任校准、多模态行为生成和LLM分析三个领域进行交叉。方法上，虽然核心生成组件（LLM、标签系统、渲染引擎）并非全新，但通过“理论驱动的提示工程”和“基于特征分析的偏见发现”将其组合成一个有价值的系统性工作框架，尤其是对LLM多模态行为偏见的揭示是重要的贡献。主要扣分点在于，生成方法本身（带标签转录）是工程设计上的巧妙组合，而非本质性的生成模型或理论突破。

技术严谨性：1.0/2 整体技术路线清晰。使用随机森林和SHAP进行行为模式分析的方法是恰当且具有可解释性的。然而，存在关键短板：1) 生成管线完全依赖一个未公开细节的闭源模型GPT-5.4，这使得方法的核心驱动力成为一个黑箱，科学严谨性和可验证性大打折扣。2) 分析方法（分类器）与生成目标（生成能表达特定信任水平的行为）之间的联系是间接的，论文未能提供对LLM内部生成机制的更深入探究。用户研究部分的统计方法使用正确，但样本量偏小。

实验充分性：1.0/2 实验由两部分组成：大规模生成数据的机器学习分析和用户感知研究。生成数据分析的样本量和方法有一定力度。主要不足：1) 缺乏基线对比：没有将LLM生成的行为与规则方法、其他LLM或真实人类数据进行对比，难以评估方法的相对效果。2) 用户研究设计局限：刺激材料仅来自单一场景和特定角色模型，生态效度有限。3) 未能解决关键科学问题：实验没有设计来验证能否独立控制能力或善意维度，而论文自己发现了维度干扰问题。4) “中等”水平与“高”水平在感知上无差异，暴露了方法在生成细粒度控制上的局限。

清晰度：0.8/1 论文结构完整，遵循标准学术格式。方法论描述（附录A的提示模板、附录B的手势库）非常详尽，图表设计清晰，写作流畅。主要扣分点在于，部分关键信息（如控制数据集的生成条件）在正文中描述可更明确；用户研究部分的评分量表（Table 2）数据呈现方式虽完整，但可进一步优化以更直观展示条件差异。

影响力：0.6/1 本工作对人机交互、可信AI和社会智能体领域有启发意义。它提供了一种新的、可扩展的范式来生成具有特定社会属性的代理行为。关于LLM内在行为偏见的发现具有警示价值，可能推动后续研究在生成过程中进行偏见检测和缓解。影响力受限于当前研究的特定任务（导航）、特定模型（GPT-5.4）和有限的实验验证（缺乏基线对比），其结论的普适性有待更多验证。

可复现性：0.5/1 论文在方法描述上非常透明，提供了完整的提示模板（附录A）和手势库（附录B）。用户研究的视频材料通过OSF链接公开。然而，核心的生成环节完全依赖闭源的GPT-5.4模型，这使得精确复现其生成结果几乎不可能。论文未提供生成数据集的下载，也未提及代码开源计划。尽管方法论描述详尽，但关键模型的不可获取性构成了复现的主要障碍。

🚨 局限与问题

论文明确承认的局限：

当前框架的生成能力依赖于特定的LLM（GPT-5.4）和预先定义的姿态库（Mixamo），这可能影响研究结果的普适性。作者在结论中提到“the current results depend on our specific gesture library and model used”。
用户感知研究的设计有限：使用了单一的导航任务、固定的男性和女性角色模型（身体和声音），这限制了关于性别感知结论的泛化能力。
研究发现指令低能力时，生成的行为同时也降低了善意、信任和类人感，表明信任维度之间存在相互干扰。作者指出这提出了未来研究问题：“whether it is possible to independently manipulate one trust dimension”。

审��人发现的潜在问题：

可复现性危机：这是最核心的缺陷。论文的所有生成和分析结果都建立在一个版本号为“GPT-5.4”的闭源商业模型上，而该模型的具体架构、训练数据、API调用细节均未公开。这严重削弱了研究的科学基础，使得其他研究者无法验证、复现或在此基础上进行改进。
缺乏基线与对比：论文没有将LLM生成的行为与任何现有基线方法（如基于规则的生成、其他规模的LLM、或真实人类行为数据）进行对比。因此，无法评估其生成行为的质量、效率或理论对齐度在更广泛光谱中的位置。
用户研究生态效度低：60名参与者观看的是完全合成的、非交互的、单一场景的视频片段。这与真实、实时、双向的社会交互场景相去甚远。代理行为是否能在更自然、更复杂的交互中依然有效传递信任信号，存疑。
理论与生成机制的脱节：提示词中编入了丰富的理论知识，但论文将LLM视为一个黑箱生成器，缺乏对LLM如何“理解”并“运用”这些理论来协调多模态行为的机制性分析。LLM是机械地匹配关键词，还是具备了某种程度的“心理理论”？
标签系统的封闭性与表达局限性：所有行为被限制在预定义的72个手势和有限的面部表情库中。这在保证可控性的同时，牺牲了表达的丰富性和新颖性。LLM能否生成超出预设库的、更微妙或文化特异的行为模式，在当前框架下无法探索。
“中等”水平的模糊性与控制粒度不足：用户研究中，“中等”指令与“高”指令在感知上无显著差异。这暴露了当前方法在生成细粒度或连续谱行为上的严重局限，无法实现精确的、线性的信任校准。
结论的过强倾向与维度干扰未解决：论文发现生成低能力行为时会同时降低善意感知，这说明LLM的生成存在严重的维度耦合问题。论文将此列为局限，但未在方法或实验设计上提出任何解决方案或缓解措施，使得“生成能独立表达不同信任维度行为”的声明缺乏支撑。用户研究中女性代理感知能力更高这一意外发现，也被归因于任务和模型限制，未能深入探讨生成偏见与感知偏见之间复杂的非线性关系。

← 返回 2026-05-20 语音/音乐/音频论文速递

📄 Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文