ICASSP 2026 - 实体消歧 论文列表
ICASSP 2026 - 实体消歧 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Rethinking Entity Disambiguation in Complex Modalities 8.0分 前25% 📋 论文详情 🥇 Rethinking Entity Disambiguation in Complex Modalities 🔥 8.0/10 | 前25% | #实体消歧 | #多模态模型 | #对比学习 #音视频 👥 作者与机构 第一作者:Yingyao Ma(东南大学计算机科学与工程学院) 通讯作者:Jiasong Wu(*,东南大学计算机科学与工程学院) 作者列表:Yingyao Ma(东南大学计算机科学与工程学院),Yifan Xue(东南大学计算机科学与工程学院),Wanqiang Cai(东南大学计算机科学与工程学院),Yuanyuan Zhou(东南大学计算机科学与工程学院),Jiasong Wu(东南大学计算机科学与工程学院),Lotfi Senhadji(法国雷恩大学,INSERM,LTSI-UMR 1099),Huazhong Shu(东南大学计算机科学与工程学院) 💡 毒舌点评 亮点:论文系统性地将实体消歧任务从传统文本/静态图像扩展到动态的视频、音频等“复杂模态”,并为此构建了一个专用的多模态数据集,填补了特定场景下的研究空白。短板:音频模态的处理略显“工具化”,主要通过ASR转文本再匹配来利用,对音频波形本身的声学特征(如音色、韵律)利用不足,可能限制了其在语音主导场景下的性能上限。 🔗 开源详情 代码:提供了一个匿名代码仓库链接:https://anonymous.open.science/r/CMED-code-B0E8。 模型权重:未提及是否公开预训练或最终模型的权重。 数据集:构建并公开了Focus数据集(包括Focus-H和Focus-A两个版本),论文中未说明具体获取方式,通常需联系作者或通过提供链接下载。 Demo:未提供在线演示。 复现材料:在论文的“Implementation Details”部分提供了训练所用的优化器(Adam)、学习率(1e-3)、batch size(64)、训练轮数(50 epochs)、GPU型号(NVIDIA GTX A6000)以及超参数调优方法(网格搜索)。 论文中引用的开源项目:依赖的开源工具/模型包括:CLIP(特征提取)、SBERT(句子编码)、BERT(基线)、BLINK(基线)以及多个多模态基线模型(ALBEF, MaPLe, ClipBERT等)。 📌 核心摘要 ...