비전 트랜스포머에서 주목 층(attention layer)의 정보량이 낮은 경우, 이를 후속 MLP 층에 통합하여 효율적으로 학습할 수 있다.
데이터 불균형 데이터셋에서 비전 트랜스포머를 효과적으로 학습하기 위해 CNN 교사 모델로부터의 증류 기법을 제안한다. 이를 통해 비전 트랜스포머가 다수 클래스와 소수 클래스에 대해 균형 잡힌 성능을 달성할 수 있다.