核心概念
ComCLIPは、事前トレーニング不要の画像とテキストのマッチングを実現する。
統計資料
Contrastive Language-Image Pretraining (CLIP)は、ゼロショットパフォーマンスを示している。
Experiments on four compositional image-text matching datasets: Winoground, VL-checklist, SVO, and ComVG.
引述
Towards better compositional generalization in zero-shot image and text matching...