Concepts de base
ComCLIPは、事前トレーニング不要の画像とテキストのマッチングを実現する。
Stats
Contrastive Language-Image Pretraining (CLIP)は、ゼロショットパフォーマンスを示している。
Experiments on four compositional image-text matching datasets: Winoground, VL-checklist, SVO, and ComVG.
Citations
Towards better compositional generalization in zero-shot image and text matching...