高级检索

基于文本生成与迭代匹配的图像-文本检索

潘莹莹, 马青, 白琮

潘莹莹, 马青, 白琮. 基于文本生成与迭代匹配的图像-文本检索[J]. 计算机辅助设计与图形学学报. DOI: 10.3724/SP.J.1089.2023-00363
引用本文: 潘莹莹, 马青, 白琮. 基于文本生成与迭代匹配的图像-文本检索[J]. 计算机辅助设计与图形学学报. DOI: 10.3724/SP.J.1089.2023-00363
Yingying Pan, Qing Ma, Cong Bai. Iterative Matching with Text Generation for Cross-Modal Image-Text Retrieval[J]. Journal of Computer-Aided Design & Computer Graphics. DOI: 10.3724/SP.J.1089.2023-00363
Citation: Yingying Pan, Qing Ma, Cong Bai. Iterative Matching with Text Generation for Cross-Modal Image-Text Retrieval[J]. Journal of Computer-Aided Design & Computer Graphics. DOI: 10.3724/SP.J.1089.2023-00363

基于文本生成与迭代匹配的图像-文本检索

基金项目: 浙江省杰出青年基金;国家自然科学基金;国家自然科学基金

Iterative Matching with Text Generation for Cross-Modal Image-Text Retrieval

  • 摘要: 摘要: 随着移动网络、自媒体平台的迅速发展, 大量的图像和文本数据不断涌现, 这使得跨模态图像-文本检索的需求日渐庞大. 然而, 由于图像和文本的特征表示方式不同, 跨模态图文检索面临着模态异构问题, 度量图像和文本的相似性存在困难. 传统的公共空间方法仅致力于学习良好的特征进而进行相似性度量, 难以高效地检索图文信息. 本文提出了基于文本生成与迭代匹配的跨模态图像文本检索框架(IMTG, Iterative Matching with Text-Generation), 不仅通过迭代融合特征优化了局部公共嵌入空间, 还通过文本生成模块的引入优化了全局公共嵌入空间, 挖掘出了图像与文本更深层的语义信息, 从而提高跨模态图像文本检索模型的性能. 该框架包含了特征融合模块和文本生成模块. 特征融合模块通过迭代融合的方式, 多次对齐图像和文本, 在不同的迭代步骤中聚合细粒度信息, 捕获图像和文本之间的局部关联信息. 文本生成模块采用特征转换的思路, 由图像模态中的特征映射到文本模态中的句子特征, 通过图文信息交互增强了图像和文本的整体语义相关性. 本文在Flickr30K、COCO数据集上的实验说明了ITMG的优越性. 在与最先进的模型进行比较中可知, IMTG在Flickr30K和COCO上的整体性能分别提升了0.7%和1.2%. 在文本检索任务的召回指标中, 最高可以提升3.4%; 在图像检索任务的召回指标中, 最高可以提升4.6%. 消融实验也证明了IMTG中特征融合模块以及文本生成模块的有效性.
计量
  • 文章访问数:  234
  • HTML全文浏览量:  22
  • PDF下载量:  73
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-06-19
  • 修回日期:  2023-08-11
  • 录用日期:  2023-08-21

目录

    /

    返回文章
    返回