Основные понятия
ComCLIPは、事前トレーニング不要の画像とテキストのマッチングを実現する。
Статистика
Contrastive Language-Image Pretraining (CLIP)は、ゼロショットパフォーマンスを示している。
Experiments on four compositional image-text matching datasets: Winoground, VL-checklist, SVO, and ComVG.
Цитаты
Towards better compositional generalization in zero-shot image and text matching...