SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization
📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #零样本 #预训练 ✅ 7.0/10 | 前25% | #音频检索 | #对比学习 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiehui Luo(中央音乐学院),Yuguo Yin(北京大学)(论文注明贡献相等) 通讯作者:Yuguo Yin(北京大学) 作者列表: Jiehui Luo(中央音乐学院) Yuguo Yin(北京大学) Yuxin Xie(北京大学) Jinghan Ru(北京大学) Xianwei Zhuang(北京大学) Minghua He(北京大学) Aofan Liu(北京大学) Zihan Xiong(电子科技大学) Dongchao Yang(香港中文大学) 💡 毒舌点评 这篇论文的亮点在于将对比学习中的“力分解”具象化,并精准指出垂直分量是“双刃剑”,由此设计的SVR正则化方法理论自洽且实验增益稳定。短板则是其创新核心(一个可学习的正则化项)相对朴素,且论文未开源代码,使得这篇发表在顶会上的工作在社区传播和快速迭代上打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开的预训练或微调后的模型权重。 数据集:使用了公开的AudioCaps和Clotho数据集。多语言翻译版本的数据集未提及是否公开。 Demo:未提及。 复现材料:论文提供了较为详细的实现细节(如编码器选择、优化器、学习率、批次大小、温度等),并在附录中补充了部分消融实验和统计显著性分析。 论文中引用的开源项目:CED-Base(音频编码器), SONAR-TE(文本编码器), Deepseek V3(用于翻译和回译分析)。 📌 核心摘要 本文针对音频-文本对比学习(CLAP)中标准InfoNCE损失存在的优化轨迹漂移问题展开研究。作者发现,来自负样本的推力可分解为与拉力方向平行和垂直的分量;其垂直分量虽包含丰富信息,但其不受控的特性会导致优化路径发生侧向偏移,影响训练稳定性和最终对齐质量。 ...