Core Concepts
본 연구에서는 INT8 데이터 흐름과 블록 단위 양자화 기법을 제안하여 트랜스포머 모델의 사전 학습 속도를 향상시키고 정확도를 유지하는 방법을 제시한다.
Abstract
본 연구는 트랜스포머 모델의 사전 학습 가속화를 위해 INT8 데이터 흐름과 블록 단위 양자화 기법을 제안한다.
INT8 데이터 흐름:
기존 양자화 방식은 FP16 데이터 흐름에서 양자화-계산-역양자화 과정을 거치므로 메모리 접근 오버헤드가 크고 정확도 저하가 발생함
본 연구에서는 활성화, 가중치, 기울기 등 모든 데이터를 INT8로 표현하여 메모리 접근을 줄이고 연산 속도를 높임
블록 단위 양자화:
채널 단위 또는 토큰 단위 양자화 방식은 채널 단위 이상치로 인해 정확도 저하가 발생함
본 연구에서는 블록 단위 양자화를 제안하여 이상치의 영향을 제한하고 정확도를 유지함
실험 결과:
기계 번역, 이미지 분류, 생성 모델 사전 학습 등 다양한 태스크에서 제안 방식이 기존 FP16 기준과 유사한 성능을 보임
단일 트랜스포머 블록 기준 1.42배 가속화, 1.49배 메모리 감소 효과 달성
Stats
단일 트랜스포머 블록 기준 1.42배 가속화 효과 달성
단일 트랜스포머 블록 기준 1.49배 메모리 감소 효과 달성
Quotes
"Pretraining transformers are generally time-consuming."
"Fully quantized training (FQT) is a promising approach to speed up pretraining."
"Our method features an INT8 data flow to optimize memory access and a per-block quantization method to maintain the accuracy of pretrained transformers."