ComCLIP proposes a training-free method for compositional image and text matching, addressing the challenges of spurious correlations and improving compositional generalization.
ComCLIPは、事前トレーニング不要の画像とテキストのマッチングを実現する。