Core Concepts
본 연구는 유전 알고리즘 기반의 양자화 인식 근사 기법(GQA-LUT)을 제안하여, 트랜스포머 모델의 비선형 연산을 효율적으로 처리할 수 있는 방법을 제시한다.
Abstract
본 연구는 트랜스포머 모델에서 빈번하게 사용되는 비선형 연산의 효율적인 처리 방법을 제안한다.
비선형 연산의 처리를 위해 Look-Up Table(LUT) 기반의 근사화 기법을 활용한다. 기존 연구에서는 고정밀 산술(FP/INT32)을 사용했지만, 본 연구에서는 양자화 인식 기법을 통해 저비트 정수 연산(INT8)으로 구현할 수 있는 방법을 제안한다.
유전 알고리즘 기반의 GQA-LUT 기법을 통해 LUT의 최적 파라미터를 자동으로 결정한다. 이를 통해 기존 방식 대비 정확도 저하를 최소화할 수 있다.
추가로 Rounding Mutation(RM) 기법을 제안하여, 양자화로 인한 breakpoint 편차 문제를 해결한다. 이를 통해 특히 큰 스케일링 요인에서 성능을 향상시킬 수 있다.
실험 결과, GQA-LUT와 RM 기법을 적용한 INT8 기반 LUT 근사화가 기존 고정밀 방식 대비 81.3~81.7% 면적 감소, 79.3~80.2% 전력 감소를 달성했다. 또한 의미 분할 태스크에서도 정확도 저하를 최소화할 수 있었다.
Stats
트랜스포머 모델의 비선형 연산은 하드웨어 비용을 크게 증가시킨다.
INT8 기반 LUT 근사화를 적용하면 FP/INT32 대비 81.3~81.7% 면적 감소, 79.3~80.2% 전력 감소를 달성할 수 있다.
Quotes
"본 연구는 유전 알고리즘 기반의 양자화 인식 근사 기법(GQA-LUT)을 제안하여, 트랜스포머 모델의 비선형 연산을 효율적으로 처리할 수 있는 방법을 제시한다."
"GQA-LUT와 RM 기법을 적용한 INT8 기반 LUT 근사화가 기존 고정밀 방식 대비 81.3~81.7% 면적 감소, 79.3~80.2% 전력 감소를 달성했다."