이 논문은 CLIP 데이터 큐레이션 프로세스를 공개하고자 한다. CLIP은 이미지-텍스트 쌍을 대규모로 활용하여 뛰어난 성능을 보이지만, 데이터 큐레이션 방식에 대한 정보가 부족했다.
논문에서는 다음과 같은 과정으로 CLIP 데이터 큐레이션 프로세스를 설명한다:
이를 바탕으로 MetaCLIP 알고리즘을 제안한다. MetaCLIP은 메타데이터와 균형화를 활용하여 CommonCrawl 데이터에서 CLIP 데이터를 능가하는 성능을 달성한다. 400M 데이터셋에서 ViT-B/32 모델로 ImageNet 제로샷 분류 정확도가 65.5%로, CLIP의 63.4%를 능가한다. 더 큰 1B, 2.5B 데이터셋으로 확장하면 각각 72.4%, 79.2%의 정확도를 달성한다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Hu Xu,Sainin... klo arxiv.org 04-09-2024
https://arxiv.org/pdf/2309.16671.pdfSyvällisempiä Kysymyksiä