핵심 개념
SuperClass는 대규모 이미지-텍스트 데이터셋에서 사전 훈련된 비전 인코더를 위한 단순하면서도 효과적인 분류 기반 접근 방식으로, 기존 Contrastive 방식(예: CLIP)보다 우수한 성능과 효율성을 제공합니다.
초록
SuperClass: 비전-언어 사전 훈련을 위한 단순하고 효과적인 분류 기반 접근 방식
본 연구 논문에서는 대규모 이미지-텍스트 데이터셋을 활용한 비전 인코더 사전 훈련을 위한 새로운 분류 기반 접근 방식인 SuperClass를 소개합니다. SuperClass는 기존의 Contrastive 방식(예: CLIP)과 달리 텍스트 인코더 없이 토큰화된 원시 텍스트를 분류 레이블로 직접 활용합니다.
본 연구의 목표는 대규모 이미지-텍스트 데이터셋을 활용하여 효율적이고 확장 가능한 방식으로 비전 인코더를 사전 훈련하는 것입니다. 특히, 기존 Contrastive 방식의 계산 복잡성을 줄이고, 텍스트 인코더 없이도 효과적인 사전 훈련이 가능함을 보여주는 데 중점을 둡니다.
SuperClass는 이미지와 텍스트 쌍으로 구성된 대규모 데이터셋을 사용하여 이미지 인코더를 훈련합니다. 핵심 아이디어는 이미지와 연결된 텍스트를 직접 분류 레이블로 사용하는 것입니다.
텍스트 토큰화 및 레이블 생성: 먼저, CLIP 또는 BERT와 같은 기존의 Subword 수준 토크나이저를 사용하여 텍스트를 토큰화합니다. 그런 다음, 토큰화된 텍스트를 이미지에 대한 분류 레이블로 직접 사용합니다. 예를 들어, "빨간 사과를 먹는 고양이"라는 텍스트는 "빨간", "사과", "먹는", "고양이"와 같은 여러 개의 레이블로 변환됩니다.
분류 손실 함수: SuperClass는 여러 분류 손실 함수 중에서 간단한 Softmax 손실 함수를 사용하여 이미지 인코더를 훈련합니다. Softmax 손실 함수는 각 이미지에 대해 가능한 모든 레이블에 대한 확률 분포를 출력하고, 실제 레이블과의 차이를 최소화하도록 학습됩니다.
역 문서 빈도(IDF) 가중치: 모든 단어가 동일한 정보량을 가지고 있는 것은 아닙니다. 따라서 SuperClass는 역 문서 빈도(IDF)를 사용하여 각 단어의 중요도를 가중치로 적용합니다. IDF는 특정 단어가 데이터셋에서 얼마나 자주 나타나는지에 대한 척도로, 자주 나타나지 않는 단어일수록 더 높은 가중치를 부여합니다.