本文提出了一种利用文本到图像扩散模型中的注意力机制进行开放词汇语义分割的方法。该方法无需额外训练或推理时优化,即可从预训练的扩散模型中提取文本和图像之间的关联,从而获得语义分割结果。
具体来说,该方法首先将噪声加入到潜在空间中,然后输入到去噪网络中,同时输入特定的文本查询。通过结合交叉注意力和自注意力,可以获得单词和像素之间的相关性映射。经过后处理,可以得到伪标签。
该方法在PASCAL VOC 2012和MS COCO 2014数据集上的弱监督语义分割任务中取得了最新的SOTA性能。此外,作者还提出了一个新的"个性化指称图像分割"任务和数据集,进一步验证了该方法在多模态理解能力方面的优势。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Changming Xi... о arxiv.org 10-02-2024
https://arxiv.org/pdf/2309.04109.pdfГлибші Запити