COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings
📄 COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings #多模态模型 #对比学习 ✅ 6.5/10 | 前50% | #音频检索 | #对比学习 | #多模态模型 | arxiv 学术质量 5/7 | 影响力 1/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文标题:COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings 作者:Yonggang Zhu, Liting Gao, Aidong Men, Wenwu Wang 机构: 北京邮电大学 人工智能学院 英国萨里大学 视觉、语音与信号处理中心 (CVSSP) 通讯作者:Wenwu Wang 资助信息:China Scholarship Council (202506470003) 💡 毒舌点评 这篇论文试图为CLAP模型中已知的模态间隙问题提供一个新的“概念分解”视角,并由此提出一个无训练的嵌入压缩方法PLSHead。优点在于它整合分析了嵌入空间结构、相似性计算机制和现有投影解码方法,理论推导有一定新意。然而,作为一篇顶会投稿,其“创新性”需要打折扣:1)核心工具PLS-SVD是成熟的统计方法,其在CLAP上的应用属于工程组合;2)提出的PLSHead方法本质是启发式的截断,关键参数K的选择缺乏理论指导;3)实验部分大量篇幅复现和比较已有的投影解码(PD)方法,并宣称其PLSHead可“替代”PD,但实际上在零样本字幕任务中并未显著超越使用完整记忆库的PD。此外,论文声称“首次提出统一的概念分解框架”,但相关工作列举了多种多模态嵌入分解方法(如SpLiCE, CCA+匹配),对“首次”的claim需更严谨。总体而言,工作扎实但突破性有限,更像是一篇细致的分析性文章。 ...