Core Concepts
웹 크롤링 데이터의 노이즈로 인한 CLIP 학습의 어려움을 해결하기 위해 데이터 클러스터링을 통해 각 데이터 전문가 모델을 학습하고, 이를 적응적으로 앙상블하여 성능을 향상시킨다.
Abstract
이 연구는 CLIP 학습에서 발생하는 데이터 노이즈 문제를 해결하기 위해 제안되었다. 웹 크롤링 데이터에서 이미지와 캡션의 페어링이 부정확한 경우가 많아, 이는 CLIP 학습 시 부정적인 영향을 미친다.
이를 해결하기 위해 연구진은 Mixture of Data Experts (MoDE) 프레임워크를 제안했다. MoDE는 다음과 같은 두 단계로 구성된다:
데이터 클러스터링: 이미지-캡션 쌍을 캡션 기반으로 클러스터링하여, 유사한 의미의 데이터를 하나의 클러스터로 묶는다. 이를 통해 각 클러스터 내에서는 false negative 노이즈가 감소하고 hard negative 예제가 증가한다.
데이터 전문가 학습 및 앙상블: 각 클러스터에 대응하는 데이터 전문가 모델을 독립적으로 학습한다. 이후 추론 시에는 입력 데이터와 각 클러스터의 유사도를 측정하여, 관련 있는 데이터 전문가 모델들을 선별적으로 앙상블한다.
실험 결과, MoDE는 기존 CLIP 모델 대비 다양한 벤치마크에서 우수한 성능을 보였다. 특히 대규모 데이터셋에서 MoDE-4 모델은 OpenAI CLIP의 ViT-L/14 모델보다 높은 정확도를 달성하면서도 학습 비용은 35% 수준에 불과했다. 이는 MoDE가 데이터 노이즈에 강인하고 효율적인 CLIP 학습 방법임을 보여준다.
Stats
웹 크롤링 데이터의 이미지-캡션 페어링에는 많은 노이즈가 존재한다.
각 클러스터 내 데이터는 유사한 의미를 가지지만, 클러스터 간에는 의미가 다르다.
MoDE-4 모델은 OpenAI CLIP의 ViT-L/14 모델보다 높은 정확도를 달성하면서도 학습 비용은 35% 수준에 불과하다.
Quotes
"웹 크롤링 데이터에서 이미지와 캡션의 페어링이 부정확한 경우가 많아, 이는 CLIP 학습 시 부정적인 영향을 미친다."
"MoDE는 데이터 노이즈에 강인하고 효율적인 CLIP 학습 방법이다."