我们研究了组合图像检索(CoIR)的任务,其中查询由两种模态(图像和文本)组成,扩展了用户的表达能力。以往的方法通常通过分别编码每个查询模态,并在提取的特征之后进行后期融合,来解决这个任务。在本文中,我们提出了一种新的方法,即交叉注意力驱动的位移编码器(CASE),通过交叉注意力模块和一个额外的辅助任务在模态之间进行早期融合。我们展示了我们的方法在已建立的基准测试(FashionIQ和CIRR)上远远超过了现有的最先进技术。但是,CoIR数据集与其他视觉和语言(V&L)数据集相比,规模要小几个数量级,并且一些数据集存在严重缺陷(例如,具有冗余模态的查询)。我们通过引入大规模组合图像检索(LaSCo)的新CoIR数据集,使其比当前的数据集大10倍,来解决这些缺点。对LaSCo进行预训练可以进一步提高性能。我们进一步建议对CoIR数据集和方法进行新的分析,以检测查询中的模态冗余或必要性。
论文链接:http://arxiv.org/pdf/2303.09429v1
更多计算机论文:http://cspaper.cn/