Concepts de base
CLIP 데이터 큐레이션 프로세스를 공개하고 이를 기반으로 한 MetaCLIP 알고리즘을 제안하여 CLIP 성능을 개선한다.
Résumé
이 논문은 CLIP 데이터 큐레이션 프로세스를 공개하고자 한다. CLIP은 이미지-텍스트 쌍을 대규모로 활용하여 뛰어난 성능을 보이지만, 데이터 큐레이션 방식에 대한 정보가 부족했다.
논문에서는 다음과 같은 과정으로 CLIP 데이터 큐레이션 프로세스를 설명한다:
- 메타데이터 구축: CLIP이 사용한 500,000개의 쿼리를 재구축한다. 이는 WordNet 동의어, 위키피디아 단어, 고빈도 바이그램, 인기 있는 위키피디아 문서 제목으로 구성된다.
- 부분 문자열 매칭: 메타데이터와 일치하는 텍스트를 찾아 이미지-텍스트 쌍을 구축한다. 이 과정에서 품질이 낮은 텍스트가 자동으로 제거된다.
- 역색인 구축: 각 메타데이터 항목에 대응되는 텍스트 목록을 구축한다.
- 균형화: 각 메타데이터 항목에 대해 최대 20,000개의 이미지-텍스트 쌍만 선택하여 데이터 분포를 균형화한다. 이를 통해 노이즈를 줄이고 다양성을 높인다.
이를 바탕으로 MetaCLIP 알고리즘을 제안한다. MetaCLIP은 메타데이터와 균형화를 활용하여 CommonCrawl 데이터에서 CLIP 데이터를 능가하는 성능을 달성한다. 400M 데이터셋에서 ViT-B/32 모델로 ImageNet 제로샷 분류 정확도가 65.5%로, CLIP의 63.4%를 능가한다. 더 큰 1B, 2.5B 데이터셋으로 확장하면 각각 72.4%, 79.2%의 정확도를 달성한다.
Stats
메타데이터 항목 중 114,000개는 매칭되는 이미지-텍스트 쌍이 없다.
메타데이터 항목 중 16,000개만이 20,000개 이상의 매칭 쌍을 가지고 있지만, 이들이 전체 매칭 쌍의 94.5%를 차지한다.
가장 많이 매칭된 메타데이터 항목은 "of", "in", "and", "for" 등의 일반적인 단어들이다.