Основні поняття
대규모 웹 데이터셋으로 훈련된 CLIP 모델의 뛰어난 성능은 훈련 데이터에 포함된 광범위한 도메인의 이미지 때문이며, 이는 모델이 실제로 OOD 일반화 능력을 갖췄다기보다는 훈련 데이터의 다양성에 의존한다는 것을 의미한다.
Анотація
잊혀진 영역 일반화를 찾아서: 대규모 데이터셋 시대에서 진정한 OOD 성능 평가
본 논문은 대규모 웹 데이터셋으로 훈련된 컴퓨터 비전 모델의 영역 일반화(Domain Generalization) 능력에 대한 연구를 다룬다. 저자들은 특히 자연 이미지와 렌더링 이미지를 구분하여 모델의 성능을 평가하고, 기존 연구에서 간과되었던 도메인 오염(Domain Contamination) 문제를 집중적으로 다룬다.
본 연구는 대규모 웹 데이터셋으로 훈련된 CLIP 모델이 기존 ImageNet 기반 모델보다 다양한 도메인에서 뛰어난 성능을 보이는 이유가 모델의 일반화 능력 때문인지, 아니면 훈련 데이터의 도메인 오염 때문인지 규명하고자 한다.
저자들은 LAION-400M 데이터셋에서 자연 이미지와 렌더링 이미지를 구분하는 도메인 분류기를 훈련하여 LAION-Natural(자연 이미지)과 LAION-Rendition(렌더링 이미지) 두 가지 데이터셋을 구축했다. 이후, 다양한 크기의 LAION-Natural, LAION-Rendition, 그리고 두 데이터셋을 혼합한 데이터셋으로 CLIP 모델을 훈련하고, ImageNet 및 DomainNet 테스트셋을 사용하여 모델의 성능을 평가했다.