Core Concepts
사전 학습된 변환기 모델의 주요 토큰을 식별하고 유사한 토큰을 제거하여 모델의 계산 복잡성을 크게 줄일 수 있다.
Abstract
이 논문은 사전 학습된 변환기 모델의 토큰 가지치기 기법인 Zero-TPrune을 제안한다. Zero-TPrune은 토큰의 중요도와 유사성을 모두 고려하여 토큰을 제거한다.
I-stage:
변환기 모델의 주의 행렬을 활용하여 토큰의 중요도 점수를 계산한다.
가중 페이지 랭크(WPR) 알고리즘을 사용하여 토큰의 중요도 점수를 반복적으로 계산하여 노이즈를 줄인다.
중요도 점수 분포를 강조하는 EIR 집계 방식과 분산 기반 헤드 필터(VHF)를 사용한다.
S-stage:
토큰의 중요도 점수를 기반으로 토큰을 두 그룹으로 분할한다.
각 그룹 내에서 가장 유사한 토큰 쌍을 찾아 하나의 토큰을 제거한다.
이를 통해 중요한 토큰의 중요도 분포를 안정적으로 유지할 수 있다.
Zero-TPrune은 사전 학습된 변환기 모델에 적용할 수 있으며, 별도의 미세 조정 없이도 모델의 계산 복잡성을 크게 줄일 수 있다. 실험 결과, Zero-TPrune은 기존 방법 대비 정확도 손실을 크게 줄이면서도 유사한 수준의 FLOPS 절감 효과를 보였다.
Stats
DeiT-S 모델에 Zero-TPrune을 적용하면 FLOPS를 34.7% 줄이고 처리량을 45.3% 향상시킬 수 있다.
다른 백본 모델에 Zero-TPrune을 적용하면 최대 49%의 정확도 손실 감소 효과를 얻을 수 있다.
Quotes
"Zero-TPrune은 사전 학습된 변환기 모델의 주요 토큰을 식별하고 유사한 토큰을 제거하여 모델의 계산 복잡성을 크게 줄일 수 있다."
"Zero-TPrune은 별도의 미세 조정 없이도 모델의 계산 복잡성을 크게 줄일 수 있다."