Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection
📄 Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection #语音伪造检测 #自监督学习 #模型评估 #Conformer 🔥 8.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #模型评估 #Conformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Phuong Tuan Dat (河内科技大学信息与通信技术学院) 通讯作者:Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 作者列表:Phuong Tuan Dat (河内科技大学信息与通信技术学院), Duc-Tuan Truong (南洋理工大学计算与数据科学学院), Long-Vu Hoang (河内科技大学信息与通信技术学院), Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 💡 毒舌点评 亮点:论文将细粒度视觉分类的“投票选择”思想巧妙移植到语音领域,通过显式建模注意力头的“专长”并选择性聚合关键帧,有效解决了标准MHSA可能忽略局部伪造伪影的问题,方法新颖且有效。短板:高斯核增强的卷积核是固定的([1, 2, 3, 4, 3, 2, 1]),缺乏理论依据或可学习性分析;且所选关键帧数量v需人工调优,在不同音频长度或任务下可能不具备普适性。 ...