이 논문은 CLIP과 같은 사전 학습된 비전-언어 모델의 한계를 지적하고, 이를 해결하기 위한 새로운 접근법인 ComCLIP을 제안한다.
CLIP은 이미지와 텍스트를 전체적으로 매칭하지만, 주체, 객체, 술어와 같은 복합적인 개념 이해에는 어려움이 있다. 이는 사전 학습 데이터의 편향성과 관련이 있다.
ComCLIP은 이미지를 주체, 객체, 술어 서브이미지로 분해하고, 이를 텍스트 개체와 동적으로 매칭함으로써 이러한 한계를 극복한다. 구체적으로:
ComCLIP은 훈련 없이 CLIP 등의 모델에 적용할 수 있는 플러그인 방식의 접근법이다. 실험 결과, ComCLIP은 Winoground, VL-checklist, SVO-Probes, ComVG 등의 복합적 이미지-텍스트 매칭 데이터셋에서 CLIP 대비 우수한 성능을 보였다. 또한 Flickr30K, MSCOCO 등의 일반 이미지-텍스트 검색 데이터셋에서도 경쟁력 있는 성능을 달성했다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Kenan Jiang,... pada arxiv.org 03-22-2024
https://arxiv.org/pdf/2211.13854.pdfPertanyaan yang Lebih Dalam