Concepts de base
2:4 희소성을 활용하여 트랜스포머 사전 학습 속도를 높이는 방법을 제안한다. 정확도 저하 없이 실제 가속화를 달성하기 위해 마스크 감쇠, 밀집 미세 조정 등의 기술을 개발했다.
Résumé
이 논문은 대규모 트랜스포머 모델의 사전 학습 속도를 높이는 방법을 제안한다.
먼저 저자들은 이전 연구에서 제안된 2:4 희소성 기반 학습 방법의 한계를 분석한다. 이 방법들은 정확도 저하 문제와 실제 가속화 달성의 어려움이 있다.
이를 해결하기 위해 저자들은 다음과 같은 기술을 제안한다:
- 마스크 감쇠: 가중치 업데이트 시 마스크 값에 감쇠 항을 적용하여 마스크 변화를 안정화한다. 이때 감쇠 계수 결정 방법을 제안한다.
- 밀집 미세 조정: 사전 학습 마지막 단계에서 밀집 모델로 미세 조정하여 정확도를 높인다.
- 가속화 기술: 희소 마스크 계산 및 활성화 함수 계산 속도를 높이는 기법을 개발한다.
이러한 기술들을 적용하여 BERT, GPT-2, Transformer-base, DeiT 등 다양한 트랜스포머 모델에 대해 실험한 결과, 정확도 저하 없이 최대 1.2배 가속화를 달성했다.
Stats
2:4 희소성을 활용하면 NVIDIA Ampere GPU에서 밀집 행렬 곱셈 대비 2배 빠른 계산이 가능하다.
트랜스포머 모델의 피드포워드 신경망(FFN) 계층에서 2:4 희소 행렬 곱셈을 활용하여 이론적으로 2배 가속화가 가능하다.
Citations
"Training large transformers is slow, but recent innovations on GPU architecture give us an advantage. NVIDIA Ampere GPUs can execute a fine-grained 2:4 sparse matrix multiplication twice as fast as its dense equivalent."
"Besides, we devise two techniques to practically accelerate training: to calculate transposable 2:4 masks by convolution, and to accelerate gated activation functions by reducing GPU L2 cache miss."