Core Concepts
본 연구는 Vision Transformer 모델의 Multi-head Self-Attention (MSA) 모듈을 효과적으로 압축하고 가속화하기 위한 그래프 기반의 구조화된 뉴런 수준의 가지치기 기법(SNP)을 제안한다. SNP는 주의력 점수를 보존하면서 헤드 간 중복성을 제거하는 두 가지 기준을 사용하여 MSA 모듈을 압축한다. 이를 통해 DeiT 모델에서 최대 3.1배의 가속화와 1.12%의 정확도 향상을 달성하였다.
Abstract
본 연구는 Vision Transformer (ViT) 모델의 핵심 구성 요소인 Multi-head Self-Attention (MSA) 모듈을 효과적으로 압축하고 가속화하기 위한 새로운 기법을 제안한다.
주의력 점수 보존을 위한 기준:
MSA 모듈의 그래프 구조를 고려하여 쿼리(Q)와 키(K) 레이어의 필터 쌍 중 주의력 점수에 가장 적게 기여하는 것을 선별적으로 제거한다.
이를 통해 주의력 점수의 핵심 정보를 유지하면서 모델 크기와 계산량을 줄일 수 있다.
헤드 간 중복성 제거를 위한 기준:
모든 헤드의 값(V) 레이어 간 유사도를 측정하여 중복성이 높은 필터를 제거한다.
이를 통해 헤드 간 중복성을 줄일 수 있다.
가속화 기법:
그래프 구조를 고려하여 연결된 레이어의 동일한 필터 인덱스를 제거함으로써 하드웨어 가속 없이도 모델 실행 속도를 높일 수 있다.
제안된 SNP 기법은 DeiT 모델에서 최대 3.1배의 가속화와 1.12%의 정확도 향상을 달성하였다. 또한 효율적으로 설계된 EfficientFormer 모델에서도 2배 이상의 가속화를 보였다.
Stats
DeiT-Tiny 모델에서 SNP를 적용하면 원본 대비 3.1배 더 빠른 추론 속도를 달성할 수 있다.
DeiT-Small 모델에서 SNP를 적용하면 원본 대비 21.94% 더 빠른 추론 속도와 1.12% 더 높은 정확도를 달성할 수 있다.
DeiT-Base 모델에서 SNP와 헤드 가지치기를 함께 적용하면 80%의 파라미터와 계산량을 줄이고 RTX3090에서 3.85배, Jetson Nano에서 4.93배 더 빠른 추론 속도를 달성할 수 있다.
Quotes
"SNP는 MSA 모듈의 그래프 구조적 특성을 활용하여 뉴런 수준의 가지치기를 수행하는 최초의 방법이다."
"SNP는 단일 뉴런 수준의 가지치기만으로도 Transformer 모델을 효과적으로 가속화할 수 있는 첫 번째 사례이다."