이 논문은 비전 트랜스포머에서 주목 층(attention layer)의 정보량을 엔트로피로 분석하고, 이를 바탕으로 주목 층을 후속 MLP 층에 통합하는 방법을 제안한다.
실험 결과, 제안 방법은 ImageNet-1k, CIFAR-100, ADE20k 등의 벤치마크에서 기존 방법 대비 성능 저하 없이 주목 층을 최대 50% 제거할 수 있었다. 또한 메모리 사용량과 처리 속도를 크게 향상시켰다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Sihao Lin,Pu... pada arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05657.pdfPertanyaan yang Lebih Dalam