Core Concepts
마스크 이미지 모델링(MIM)에서 마스크되지 않은 토큰을 학습에 활용하면 더 강력한 표현을 학습할 수 있다.
Abstract
마스크 이미지 모델링(MIM)은 자기 지도 학습의 선도적인 전략이 되었다.
MIM 모델들은 입력 토큰을 무작위로 마스킹하고 인코더가 이를 처리하며, 디코더가 마스크된 토큰을 재구성하도록 학습한다.
그러나 MIM 사전 학습된 인코더는 종종 제한적인 주의 범위를 보이는데, 이는 MIM이 마스크된 토큰만을 회귀하는 데 초점을 맞추기 때문일 수 있다.
이 한계를 해결하기 위해 우리는 MIM 학습 과정에 마스크되지 않은 토큰을 명시적으로 포함시킨다.
구체적으로, 우리의 방법은 인코더가 더 넓은 문맥 감독을 통해 학습하도록 하여, 마스크되지 않은 토큰이 더 광범위한 문맥을 경험하도록 한다.
이를 통해 마스크되지 않은 토큰은 광범위한 문맥 정보를 갖게 되며, 마스크된 토큰이 이를 활용할 수 있게 된다.
그 결과, 우리의 간단한 해결책은 더 식별력 있는 표현을 학습하여, ViT-B에서 ImageNet-1K에 대해 84.2%의 top-1 정확도를 달성한다.
또한 의미 분할 및 세부 시각 분류 작업에서 유의미한 성능 향상을 보인다.
특이값 스펙트럼 및 주의 분석을 통해 우리 방법의 성공 요인을 확인할 수 있다.
Stats
마스크 이미지 모델링(MIM) 방식은 마스크된 토큰만을 회귀하는 데 초점을 맞추어 제한적인 주의 범위를 보인다.
제안한 방법 LUT는 마스크되지 않은 토큰에 대한 광범위한 문맥 감독을 통해 더 식별력 있는 표현을 학습할 수 있다.
LUT를 사용하여 학습한 ViT-B 모델은 ImageNet-1K에서 84.2%의 top-1 정확도를 달성하여 0.6%p 향상된 성능을 보인다.
LUT는 의미 분할 및 세부 시각 분류 작업에서도 유의미한 성능 향상을 보인다.
Quotes
"MIM 사전 학습된 인코더는 종종 제한적인 주의 범위를 보인다."
"우리의 간단한 해결책은 더 식별력 있는 표현을 학습하여, ViT-B에서 ImageNet-1K에 대해 84.2%의 top-1 정확도를 달성한다."