多模态生成

📄 Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs #社交智能体 #大语言模型 #多模态生成 #信任校准 #性别公平性 📝 5.9/10 | 前50% | #社交智能体 | #大语言模型 | #多模态生成 #信任校准 | arxiv 学术质量 4.8/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Lucie Galland（LIS Laboratory, Aix-Marseille University）通讯作者：未在论文中明确标注。作者列表：Lucie Galland（LIS Laboratory, Aix-Marseille University），Chloé Clavel（Inria Paris），Magalie Ochs（LIS Laboratory, Aix-Marseille University） 💡 毒舌点评这篇论文触及了一个至关重要且亟待探索的交叉点：利用LLM生成多模态行为以校准用户信任。其价值在于将经典的心理学信任理论与前沿的LLM生成能力进行了系统性嫁接，并通过大规模数据分析，犀利地揭示了LLM内嵌的“默认自信”与“性别刻板印象”两大行为偏见。然而，其核心贡献更接近于一次深刻的“现象学诊断”与“概念验证”，而非一个鲁棒的方法论突破。最致命的弱点在于其生成管线完全依赖一个未公开细节的闭源商业模型（GPT-5.4），这使得整个工作的科学基础和可复现性大打折扣。用户研究设计过于理想化（单一任务、固定模型），生态效度有限，未能解决生成行为中信任维度相互干扰这一关键问题。论文诚实地暴露了问题，但解决方案的缺失使其更像一篇优秀的“问题报告”，而非一篇完整的“方法论文”。 📌 核心摘要要解决的问题：随着社会交互代理（SIA）进入敏感领域，校准用户信任至代理的实际能力至关重要。论文探索利用大语言模型（LLM）生成能反映不同“能力”和“善意”水平（信任的关键维度）的多模态行为（语言、语调、手势、表情）的可能性。方法核心：提出了一种基于LLM的“带标签转录”生成方法。通过精心设计的、包含理论定义、任务场景和行为标签库的系统提示词，引导LLM（GPT-5.4）生成嵌入了特定手势、面部表情和语调标签的对话脚本。这些脚本随后可被渲染为多模态代理行为。与已有方法相比新在哪里：与以往依赖专家标注数据集或规则驱动的方法不同，本方法利用LLM的零样本生成能力，以理论驱动的提示词为中介，自动化地生成反映抽象心理特质的多模态行为序列。这是首次系统性地评估LLM生成信任校准行为的能力，并深入分析其生成行为中固有的偏见。主要实验结果： ...

📄 Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation #多模态生成 #音视频同步 #语音-音效协调 #流匹配 #扩散模型 ✅ 6.5/10 | 前30% | #音视频生成 | #流匹配 | #多模态生成 #音视频同步 | arxiv 学术质量 6.5/8 | 影响力 0.7/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Shihao Cheng， Jiaxu Zhang（论文标注为共同第一作者 ⋆）通讯作者：Zhigang Tu， Xuelong Li（论文标注为共同通讯作者 ‡）作者列表：Shihao Cheng, Jiaxu Zhang, Quanyue Song, Shansong Liu†, Zhizhi Guo, Xiaolei Zhang, Chi Zhang, Xuelong Li‡, Zhigang Tu‡（所有作者的具体所属机构在论文正文中未详细说明，仅在脚注中标注贡献角色） 💡 毒舌点评该工作精准定位了人类中心音视频生成中“语音压制音效”和“运动-音画不同步”两大痛点，并提出了一套设计感强、工程化程度高的框架（语义引导协调+双向强制）。尤其在音频分支的精细解耦与控制上展现了巧思，实验结果在音频保真度和同步性指标上表现突出。然而，其“SOTA”宣称在更广阔的生态中显得单薄：视觉美感仍落后于参数量更大的LTX-2，且完全缺乏与Sora 2、Veo 3等工业级闭源模型的直接对比分析。其创新的“双向强制”策略虽有效，但根源思想并非首次提出，且实现细节（如权重设定）略显启发式。 ...