Core Concepts
중심 마스킹 기법(GLIP)은 FLIP의 무작위 마스킹 기법보다 우수한 성능을 보이며, 동일한 계산 자원 절감 효과를 달성한다.
Abstract
본 연구에서는 중심 마스킹 기법(GLIP)을 제안한다. GLIP는 CLIP 모델의 사전 학습 과정에서 이미지 패치를 무작위로 마스킹하는 FLIP 기법을 개선한다. GLIP는 가우시안 분포를 사용하여 이미지 중심 부분의 패치를 더 많이 유지하는 방식으로 마스킹을 수행한다.
실험 결과, GLIP는 FLIP 대비 다양한 데이터셋과 과제에서 우수한 성능을 보였다. 특히 마스킹 비율이 높은 경우에도 GLIP가 FLIP보다 월등한 성능을 달성했다. 이는 GLIP가 이미지의 중심 부분을 더 잘 활용하기 때문이다. 또한 GLIP는 이미지의 중심 초점이 뚜렷하지 않은 데이터셋에서도 FLIP보다 우수한 성능을 보였다.
GLIP는 FLIP과 동일한 계산 자원 절감 효과를 달성하면서도 성능 향상을 이루어냈다. 이는 언어-이미지 모델 학습의 효율성을 높이는 데 기여할 것으로 기대된다.
Stats
중심 마스킹을 사용하면 이미지의 주요 피사체를 더 잘 보존할 수 있다.
GLIP는 FLIP 대비 ImageNet-1K 제로샷 분류 과제에서 최대 3.8%p 높은 성능을 보였다.
GLIP는 ImageNet-1K 선형 프로빙 과제에서 FLIP 대비 0.84%p 높은 성능을 달성했다.
GLIP는 다양한 데이터셋에서 FLIP 대비 평균 0.54%p 높은 제로샷 분류 성능을 보였다.
Quotes
"중심 마스킹은 이미지의 주요 피사체를 더 잘 보존한다."
"GLIP는 FLIP 대비 ImageNet-1K 제로샷 분류 과제에서 최대 3.8%p 높은 성능을 보였다."
"GLIP는 ImageNet-1K 선형 프로빙 과제에서 FLIP 대비 0.84%p 높은 성능을 달성했다."