信任校准 | 语音/音乐/音频论文速递

📄 Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs #社交智能体 #大语言模型 #多模态生成 #信任校准 #性别公平性 📝 5.9/10 | 前50% | #社交智能体 | #大语言模型 | #多模态生成 #信任校准 | arxiv 学术质量 4.8/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Lucie Galland（LIS Laboratory, Aix-Marseille University）通讯作者：未在论文中明确标注。作者列表：Lucie Galland（LIS Laboratory, Aix-Marseille University），Chloé Clavel（Inria Paris），Magalie Ochs（LIS Laboratory, Aix-Marseille University） 💡 毒舌点评这篇论文触及了一个至关重要且亟待探索的交叉点：利用LLM生成多模态行为以校准用户信任。其价值在于将经典的心理学信任理论与前沿的LLM生成能力进行了系统性嫁接，并通过大规模数据分析，犀利地揭示了LLM内嵌的“默认自信”与“性别刻板印象”两大行为偏见。然而，其核心贡献更接近于一次深刻的“现象学诊断”与“概念验证”，而非一个鲁棒的方法论突破。最致命的弱点在于其生成管线完全依赖一个未公开细节的闭源商业模型（GPT-5.4），这使得整个工作的科学基础和可复现性大打折扣。用户研究设计过于理想化（单一任务、固定模型），生态效度有限，未能解决生成行为中信任维度相互干扰这一关键问题。论文诚实地暴露了问题，但解决方案的缺失使其更像一篇优秀的“问题报告”，而非一篇完整的“方法论文”。 📌 核心摘要要解决的问题：随着社会交互代理（SIA）进入敏感领域，校准用户信任至代理的实际能力至关重要。论文探索利用大语言模型（LLM）生成能反映不同“能力”和“善意”水平（信任的关键维度）的多模态行为（语言、语调、手势、表情）的可能性。方法核心：提出了一种基于LLM的“带标签转录”生成方法。通过精心设计的、包含理论定义、任务场景和行为标签库的系统提示词，引导LLM（GPT-5.4）生成嵌入了特定手势、面部表情和语调标签的对话脚本。这些脚本随后可被渲染为多模态代理行为。与已有方法相比新在哪里：与以往依赖专家标注数据集或规则驱动的方法不同，本方法利用LLM的零样本生成能力，以理论驱动的提示词为中介，自动化地生成反映抽象心理特质的多模态行为序列。这是首次系统性地评估LLM生成信任校准行为的能力，并深入分析其生成行为中固有的偏见。主要实验结果： ...

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...