Основні поняття
비전 트랜스포머에서 주목 층(attention layer)의 정보량이 낮은 경우, 이를 후속 MLP 층에 통합하여 효율적으로 학습할 수 있다.
Анотація
이 논문은 비전 트랜스포머에서 주목 층(attention layer)의 정보량을 엔트로피로 분석하고, 이를 바탕으로 주목 층을 후속 MLP 층에 통합하는 방법을 제안한다.
- 주목 층의 엔트로피 분석:
- 하위 블록의 주목 층은 상위 블록에 비해 엔트로피가 낮음
- 이러한 주목 층은 후속 MLP 층의 엔트로피 수준과 유사
- 주목 층과 MLP 층의 통합:
- 정보량이 낮은 주목 층을 점진적으로 항등 매핑(identical mapping)으로 퇴화시킴
- 이 항등 매핑과 잔차 연결을 후속 MLP 층에 통합하여 MLP 층만으로 구성
- 엔트로피 기반 선택 전략(NOSE):
- 최종 출력 층과의 상호작용이 최소인 주목 층 조합을 선별
- 전이 엔트로피(transfer entropy)를 이용하여 층 간 상호작용을 측정
실험 결과, 제안 방법은 ImageNet-1k, CIFAR-100, ADE20k 등의 벤치마크에서 기존 방법 대비 성능 저하 없이 주목 층을 최대 50% 제거할 수 있었다. 또한 메모리 사용량과 처리 속도를 크게 향상시켰다.
Статистика
주목 층 제거 시 DeiT-B 모델의 매개변수가 13.7% 감소
주목 층 제거 시 DeiT-B 모델의 처리 속도가 20.5% 향상
Цитати
"MLP 층은 하위 블록에서 주목 층과 동일한 수준의 엔트로피를 가지고 있지만, 충분히 활용되지 않고 있다."
"우리는 정보량이 낮은 주목 층을 후속 MLP 층에 통합할 수 있는지 의문을 제기한다."