A Semi-Supervised Framework for Speech Confidence Detection using Whisper

📄 A Semi-Supervised Framework for Speech Confidence Detection using Whisper #语音自信度检测 #半监督学习 #伪标签 #迁移学习 #Whisper #数据增强 #低资源 #语音大模型 ✅ 6.5/10 | 未提及 | #语音自信度检测 | #半监督学习 | #伪标签 #迁移学习 | arxiv 学术质量 6.0/8 | 影响力 0.6/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Adam Wynn 通讯作者:未说明 作者列表:Adam Wynn(未说明具体学术机构,但论文脚注提及由IEEE Publication Technology Group制作,地址在Piscataway, NJ),Jingyun Wang(未说明) 💡 毒舌点评 这篇论文为“感知自信度检测”这一小众且缺乏基准的任务构建了一个完整、实验扎实的半监督框架。其核心思路——结合Whisper的语义能力与可解释声学特征(eGeMAPS + 辅助模型)进行晚期融合,并通过“不确定性感知”伪标签扩充数据——在解决数据稀缺问题上逻辑自洽且有效。然而,其创新性更多体现在系统集成和工程优化,而非方法论的根本突破。文中多个关键超参数(如伪标签阈值τ、融合权重λ、损失权重18.0)的选择依据仅提及“经验消融”或“经验性确定”,缺乏充分的实验展示或理论推导,使得部分设计略显“黑箱”。尽管实验结果支持了其框架的有效性,但单一、未公开的小规模数据集评估限制了结论的泛化说服力。 📌 核心摘要 要解决什么问题:自动检测语音中的感知说话人自信度对于自适应计算和情感交互至关重要,但面临标注数据稀缺(任务主观且无公开基准)和现有方法局限(纯声学特征泛化差,纯自监督模型可能忽略细粒度韵律线索)的挑战。 方法核心是什么:提出一个五阶段半监督混合框架:(A) 构建并标注小型数据集;(B) 提取Whisper语义嵌入和94维声学特征向量(eGeMAPS + 辅助不流畅/压力模型概率);(C) 训练辅助的不流畅性和压力检测模型;(D) 用仅基于声学特征向量训练的MLP对无标签数据生成伪标签,并通过高置信度阈值(τ=0.8)过滤;(E) 训练一个双流晚期融合的混合模型,融合Whisper流和特征向量流的输出,并使用源增强损失函数在真值+伪标签数据上训练。 与已有方法相比新在哪里:首次为感知自信度检测提出专用半监督框架。核心创新点在于:(1) 架构创新:明确提出并实现了将Whisper深度语义表示与可解释声学特征(含辅助任务线索)进行晚期融合,以显式引入韵律纠正信号;(2) 策略创新:引入“不确定性感知”伪标签策略,强调通过严格的置信度过滤来保证伪标签质量,而非单纯追求数量。 ...

2026-05-13 · 更新于 2026-05-19 · 3 min · 570 words