高级检索

基于双通道注意力机制的多尺度指代目标分割方法

Multi-scale Referring Image Segmentation Based on Dual Attention

  • 摘要: 针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题, 本文提出了基于双通道注意力机制的多尺度指代目标分割方法. 首先, 利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐, 并使用双通道注意力机制捕捉多模态特征间的依赖性, 实现模态间和模态内的交互;其次, 利用语言特征作为引导, 从其他层次的特征中聚合与目标相关的视觉信息, 进一步增强特征表示;然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息;最后, 利用不同膨胀因子的空洞卷积融合多尺度信息, 增加模型对不同尺度分割目标的感知能力. 此外, 在UNC、UNC+、GRef、ReferIt基准数据集上进行实验, 实验结果表明, 本文方法的overall IoU在UNC上提高了1.81%, 在UNC+上提高了1.26%, 在G-Ref上提高了0.84%, 在ReferIt上提高了0.32%, 广泛的消融研究也验证了我们方法中每个组成部分的有效性.

     

/

返回文章
返回