本文提出了一种名为VATEX的新框架,用于提高指称图像分割的性能。主要包括以下几个方面:
CLIP Prior模块:利用CLIP模型生成一个物体中心的视觉热图,将其与文本特征结合,作为初始查询。这有助于准确定位感兴趣的物体。
上下文多模态解码器(CMD):采用分层的架构,通过跨模态注意力机制,在视觉和文本特征之间进行双向交互,增强文本特征的视觉感知能力,并将其反馈到视觉特征中。
意义一致性约束(MCC):利用对同一物体的不同描述之间的对比学习,确保生成的视觉感知文本特征在语义上一致和有区分性。
通过上述三个创新点,VATEX在RefCOCO、RefCOCO+和G-Ref等基准数据集上取得了显著的性能提升,超越了现有最先进的方法。此外,VATEX还在指称视频分割任务中取得了state-of-the-art的结果。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы