Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition
📄 Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition #语音情感识别 #自监督学习 7.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前50% | #语音情感识别 | #自监督学习 | arxiv 👥 作者与机构 Li Qian Song, Shuanglin (可能),来自1. 湘江实验室 (Xiangjiang Laboratory),长沙,中国;2. 埃克塞特大学 (University of Exeter),埃克塞特,英国。联系邮箱为:slay575@163.com, ruxiaoqian@gmail.com, s.song@exeter.ac.uk。 💡 毒舌点评 这篇论文试图用微分几何的华丽外衣,给一个相对直白的统计操作(在子空间上计算协方差矩阵并取对数)正名。动机(一阶聚合丢失相关性)是合理的,但论述中将“协方差矩阵在欧氏空间操作”上升到“几何失真”、“伪熵”的高度,显得过于理论化,有点把简单问题复杂化的嫌疑。实验上,虽然在两个标准数据集上超越了基础池化基线,但对比的基线集显得陈旧且单一(没有与近期任何二阶聚合方法如Bilinear Pooling, 或其他几何方法如Log-Det Pooling对比),使得“有效性”的宣称大打折扣。最遗憾的是,作为一篇强调计算效率(避免维度爆炸)的论文,居然完全不提供SOC层与基线的计算开销对比,这在注重实用的顶会审稿人眼里是很大的减分项。作者声称SOC是“drop-in module”,却不展示其插入后的整体效率变化,说服力不足。 📌 核心摘要 本文针对自监督语音识别(SSL)表征在聚合为整段描述符时丢失特征间高阶相关性的问题,提出了第二阶相关(SOC)层。SOC层首先通过一个可学习的线性层将高维SSL特征投影到一个紧凑的低维子空间,在此子空间中计算特征的协方差矩阵,将其建模为对称正定(SPD)流形上的描述符。随后,通过Log-Euclidean映射(LEM)将协方差矩阵映射到欧几里得切空间,并进行半向量化以供下游分类器使用。在ESD和RAVDESS两个数据集上的实验表明,SOC在多个冻结SSL主干网络上均优于全局平均池化(GAP)、全局标准差池化(ASP)和帧感知池化(FA)等一阶基线方法。 ...