Core Concepts
LATTE는 헤드별 학습 가능한 임계값을 사용하여 멀티헤드 어텐션의 계산을 효율적으로 줄이면서도 성능 저하를 최소화할 수 있는 기법이다.
Abstract
이 논문에서는 LATTE (Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer)라는 기법을 제안한다. LATTE는 멀티헤드 어텐션의 계산을 효율적으로 줄이기 위해 다음과 같은 기법을 사용한다:
저정밀 근사 어텐션: 쿼리와 키의 점곱을 저정밀도로 계산하여 계산량을 줄인다. 또한 계산된 저정밀도 점곱 결과를 재사용하여 전체 8비트 점곱 계산을 효율화한다.
헤드별 학습 가능한 임계값: 각 헤드마다 다른 분포를 가지는 어텐션 점수를 고려하여 헤드별로 다른 임계값을 학습한다. 이를 통해 성능과 계산량의 균형을 체계적으로 조절할 수 있다.
실험 결과, LATTE는 컴퓨터 비전 태스크에서 85.16%의 키를 제거하면서도 0.87%의 정확도 하락만 보였다. 자연어 처리 태스크에서는 89.91%의 키를 제거하면서 0.86의 perplexity 증가만 있었다. 이를 통해 LATTE가 트랜스포머 모델의 효율성을 크게 향상시킬 수 있음을 보였다.
Stats
LATTE는 컴퓨터 비전 태스크에서 85.16%의 키를 제거하면서도 0.87%의 정확도 하락만 보였다.
LATTE는 자연어 처리 태스크에서 89.91%의 키를 제거하면서 0.86의 perplexity 증가만 있었다.
Quotes
"LATTE는 헤드별 학습 가능한 임계값을 사용하여 멀티헤드 어텐션의 계산을 효율적으로 줄이면서도 성능 저하를 최소화할 수 있다."
"LATTE는 컴퓨터 비전 태스크에서 85.16%의 키를 제거하면서도 0.87%의 정확도 하락만 보였다."
"LATTE는 자연어 처리 태스크에서 89.91%의 키를 제거하면서 0.86의 perplexity 증가만 있었다."