Core Concepts
시각적 중요도에 기반한 마스킹 전략을 통해 마스킹 비율 변화에 강건한 사전 학습 성능 향상
Abstract
이 논문은 시각적 중요도에 기반한 새로운 마스킹 기법인 Salience-Based Adaptive Masking (SBAM)을 제안한다. SBAM은 토큰의 중요도를 고려하여 마스킹할 토큰을 선별함으로써 기존 랜덤 마스킹 방식의 한계를 극복한다.
SBAM의 핵심은 토큰의 '중요도'를 계산하는 것이다. 이를 위해 토큰 간 어텐션 관계를 활용하여 각 토큰의 '중요도 점수'를 산출한다. 이 점수를 기반으로 중요한 토큰을 선별적으로 마스킹한다. 또한 무작위성을 일부 도입하여 마스킹의 다양성을 확보한다.
SBAM은 마스킹 비율 변화에 강건한 성능을 보인다. 이를 바탕으로 적응형 마스킹 비율(AMR) 전략을 제안한다. AMR은 각 이미지의 고유한 시각적 특성을 고려하여 동적으로 마스킹 비율을 조절한다.
실험 결과, SBAM과 AMR은 다양한 기반 모델에 적용되어 ImageNet-1K 데이터셋에서 우수한 성능 향상을 보였다. 이는 제안 기법이 마스크 기반 사전 학습 모델의 성능을 효과적으로 높일 수 있음을 입증한다.
Stats
마스킹 비율이 낮아질수록 중요 토큰이 포함될 확률이 낮아지지만, SBAM은 중요 토큰을 일관되게 마스킹하여 성능 저하가 적다.
SBAM은 기존 방식 대비 더 빠른 수렴 속도와 높은 정확도를 달성한다.
Quotes
"SBAM은 토큰의 중요도를 고려하여 마스킹할 토큰을 선별함으로써 기존 랜덤 마스킹 방식의 한계를 극복한다."
"SBAM은 마스킹 비율 변화에 강건한 성능을 보이며, 이를 바탕으로 적응형 마스킹 비율(AMR) 전략을 제안한다."