이 논문은 웹 규모의 이미지-텍스트 데이터를 활용하여 비전 모델을 효율적으로 사전 학습하는 새로운 방법을 제안한다. 기존의 대조 학습 방식은 이미지-텍스트 쌍 간 유사도 계산에 많은 계산 비용이 소요되는 문제가 있었다.
저자들은 이미지-텍스트 데이터의 텍스트 캡션에서 명사를 추출하고 이를 WordNet 동의어 집합(synset)으로 매핑하는 방식으로 사전 학습을 분류 문제로 재정의하였다. 이를 통해 대조 학습에 필요한 쌍별 유사도 계산을 제거하여 학습 속도를 2.7배 향상시켰다.
저자들은 다양한 비전 태스크에서 실험을 수행하여 제안 방법인 CatLIP이 CLIP 수준의 성능을 달성함을 보였다. 특히 작은 데이터셋에서도 CatLIP이 CLIP보다 더 오랜 학습을 통해 성능이 향상되는 것을 확인하였다. 또한 CatLIP은 타겟 태스크의 레이블과 사전 학습 모델의 분류층 임베딩을 활용하여 데이터 효율적인 전이 학습을 가능하게 한다.
종합적으로 CatLIP은 웹 규모 이미지-텍스트 데이터를 활용하여 효율적이고 효과적으로 비전 모델을 사전 학습할 수 있는 새로운 방법론을 제시한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sachin Mehta... at arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15653.pdfDeeper Inquiries