Beyond Content: A Comprehensive Speech Toxicity Dataset and Detection Framework Incorporating Paralinguistic Cues
📄 Beyond Content: A Comprehensive Speech Toxicity Dataset and Detection Framework Incorporating Paralinguistic Cues #音频分类 #预训练 #多任务学习 #内容审核 ✅ 6.5/10 | 前25% | #音频分类 | #预训练 | #多任务学习 #内容审核 | arxiv 学术质量 5.5/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Zhongjie Ba(论文作者列表首位,但未明确标注为第一作者) 通讯作者:未明确说明(论文仅标注“The corresponding author”,但未在作者列表旁具体指出是谁) 作者列表:Zhongjie Ba, Liang Yi, Peng Cheng, Qingcao Li, Qinglong Wang, Li Lu 作者机构:论文未在作者列表旁提供具体机构信息,但在致谢部分提及了Zhejiang Provincial Natural Science Foundation等支持机构。 💡 毒舌点评 数据集ToxiAlert-Bench的构建是最大贡献,填补了副语言毒性样本标注的空白。然而,模型(ToxiAlert)的“创新”本质上是将预训练SSL模型与两个标准MLP头进行工程整合,缺乏架构或理论深度。实验中与之对比的部分基线(如DeToxy, YIDUN)性能极低,使得性能提升的宣称需要谨慎看待;与强大的多模态大模型对比更有说服力。论文未明确列出局限性部分,是一个疏漏。 📌 核心摘要 本文旨在解决现有语音毒性检测忽视副语言特征(语调、情绪等)的问题。作者构建了首个大规模、标注毒性来源(文本/副语言/两者兼有)的语音毒性数据集ToxiAlert-Bench,包含超3.2万条音频。其次,提出了基于Wav2Vec 2.0的双头检测框架ToxiAlert:一个头(Source Head)识别毒性来源,另一个头(Category Head)对7类毒性进行分类。该框架采用三阶段训练策略:先分别独立训练两个头,再联合微调。实验表明,ToxiAlert在ToxiAlert-Bench上显著优于包括DeToxy和多个多模态大模型在内的基线,其宏F1分数相比最强基线(Gemini-2.5-Flash)提升了21.1%,准确率提升13.0%,尤其在纯副语言毒性检测上表现突出。该工作为语音内容安全领域提供了重要的数据资源和方法框架,但数据集限于英文,且合成数据可能无法完全代表真实世界分布。 ...