Acoustic and Facial Markers of Perceived Conversational Success in Spontaneous Speech

📄 Acoustic and Facial Markers of Perceived Conversational Success in Spontaneous Speech #语音情感识别 #多模态模型 #面部动作单元 #协同说话 #对话系统 ✅ 6.0/10 | 前50% | #语音情感识别 | #多模态模型 | #面部动作单元 #协同说话 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Thanushi Withanage(美国马里兰大学学院公园分校电气与计算机工程系) 通讯作者:Elizabeth Redcay(美国马里兰大学学院公园分校心理学系) 作者列表:Thanushi Withanage(美国马里兰大学学院公园分校电气与计算机工程系)、Elizabeth Redcay(美国马里兰大学学院公园分校心理学系) 💡 毒舌点评 亮点:论文的选题非常“接地气”且具有现实意义,专注于分析Zoom这种已成为主流的远程沟通场景中的自然对话,所使用的CANDOR语料规模庞大(1500+对话),使得统计结论具有较强的可信度。短板:研究停留在关联性分析层面,缺乏一个端到端的预测模型或机制性解释,结论显得“是什么”多于“为什么”,且对如何应用这些发现进行“针对性干预”只停留在呼吁层面,缺乏具体方案。 📌 核心摘要 本文旨在探究在非任务导向的自发Zoom视频对话中,哪些声学和面部特征能够预测感知的对话成功(PCS)。核心方法是利用CANDOR大规模语料库,提取轮次时长、停顿、音高(F0)、语音强度以及面部动作单元(FAU)等多种特征,并通过因子分析构建PCS分数。与以往多聚焦于任务导向或短对话的研究不同,本文创新性地验证了在长时间的自然虚拟对话中同样存在显著的协同现象(entrainment),并建立了特征与对话质量的关联。主要实验结果包括:高成功对话(HSC)相较于低成功对话(LSC),具有更多的轮次(U=545, z=-5.71, p=1.18e-8)、更长的轮次总时长、更短的停顿、更强的音高和强度邻近性(proximity entrainment),以及更显著的微笑相关FAU(如AU10, AU14)的同步性。研究的实际意义在于为优化远程沟通、设计社交技能训练工具提供了可量化的多模态标志物。主要局限性是研究属于相关性分析,未能验证因果,也未构建一个能够实时预测对话质量的计算模型。 🏗️ 模型架构 本文未提出一个传统意义上的“模型”架构,其核心是一个多模态对话特征分析与关联性研究的框架。数据流与处理流程如下: 数据输入与预处理:输入为CANDOR数据集中的双通道Zoom对话音频与视频。音频被下采样至16kHz并转为单声道,视频用于面部表情分析。 特征提取: 对话动态特征:基于Backbiter转录文本,计算轮次时长(最小、最大、均值、总和)和轮次计数。同时,根据转录时间戳计算轮间停顿(静音>0.6秒)的时长统计。 声学特征:使用PENN工具从每个说话人轮次中提取基频(F0),并使用Praat计算语音强度。对F0进行归一化以减少性别差异。 面部特征:使用OpenFace工具包处理每个说话人的视频,提取17种面部动作单元(FAU)的强度值。 协同特征计算: 声学邻近性(Proximity Entrainment):为每个对话计算“相邻轮次距离”(当前轮特征值与对方下一轮特征值的绝对差)和“非相邻轮次距离”(与随机对方轮次的绝对差),通过配对t检验判断相邻距离是否显著更小。 面部同步性(Synchrony):在5秒非重叠窗口内,计算同一FAU在两个说话人之间的皮尔逊相关系数,经Fisher Z变换后取对话平均值。 感知对话成功(PCS)构建:对21项调查问卷进行主成分分析(PCA),选取PCA1对应的11个积极情感与互动指标,标准化后平均得到PCS分数。根据分布,选取PCS≤0.6(LSC)和≥0.9(HSC)的极端子集进行对比。 关联性分析:使用Mann-Whitney U检验(针对非正态数据)或Welch’s t检验,比较LSC和HSC组在各项特征上的差异。 (图1:不同特征与PCS的关联箱线图。展示了在HSC(高成功)和LSC(低成功)对话中,轮次时长(a)、停顿时长(b)以及轮次计数(c)的分布差异。关键结论:HSC对话拥有更多轮次、更长的总轮次时长和更短的停顿。) ...

2026-04-29