Centrala begrepp
ComCLIPは、事前トレーニング不要の画像とテキストのマッチングを実現する。
Statistik
Contrastive Language-Image Pretraining (CLIP)は、ゼロショットパフォーマンスを示している。
Experiments on four compositional image-text matching datasets: Winoground, VL-checklist, SVO, and ComVG.
Citat
Towards better compositional generalization in zero-shot image and text matching...