摘要:
摘要: 随着移动网络、自媒体平台的迅速发展, 大量的图像和文本数据不断涌现, 这使得跨模态图像-文本检索的需求日渐庞大. 然而, 由于图像和文本的特征表示方式不同, 跨模态图文检索面临着模态异构问题, 度量图像和文本的相似性存在困难. 传统的公共空间方法仅致力于学习良好的特征进而进行相似性度量, 难以高效地检索图文信息. 本文提出了基于文本生成与迭代匹配的跨模态图像文本检索框架(IMTG, Iterative Matching with Text-Generation), 不仅通过迭代融合特征优化了局部公共嵌入空间, 还通过文本生成模块的引入优化了全局公共嵌入空间, 挖掘出了图像与文本更深层的语义信息, 从而提高跨模态图像文本检索模型的性能. 该框架包含了特征融合模块和文本生成模块. 特征融合模块通过迭代融合的方式, 多次对齐图像和文本, 在不同的迭代步骤中聚合细粒度信息, 捕获图像和文本之间的局部关联信息. 文本生成模块采用特征转换的思路, 由图像模态中的特征映射到文本模态中的句子特征, 通过图文信息交互增强了图像和文本的整体语义相关性. 本文在Flickr30K、COCO数据集上的实验说明了ITMG的优越性. 在与最先进的模型进行比较中可知, IMTG在Flickr30K和COCO上的整体性能分别提升了0.7%和1.2%. 在文本检索任务的召回指标中, 最高可以提升3.4%; 在图像检索任务的召回指标中, 最高可以提升4.6%. 消融实验也证明了IMTG中特征融合模块以及文本生成模块的有效性.