비전 트랜스포머에서 주목 층(attention layer)의 정보량이 낮은 경우, 이를 후속 MLP 층에 통합하여 효율적으로 학습할 수 있다.


coremsg

비전-트랜스포머에서-mlp가-좋은-학습기가-될-수-있다


비전 트랜스포머에서 MLP가 좋은 학습기가 될 수 있다



데이터 불균형 데이터셋에서 비전 트랜스포머를 효과적으로 학습하기 위해 CNN 교사 모델로부터의 증류 기법을 제안한다. 이를 통해 비전 트랜스포머가 다수 클래스와 소수 클래스에 대해 균형 잡힌 성능을 달성할 수 있다.



데이터 불균형 데이터셋에서 비전 트랜스포머 학습을 위한 증류 기법