Core Concepts
본 연구는 신경망 온칩 구현을 위해 가중치 및 활성화 함수 단위로 혼합 정밀도 양자화를 자동으로 수행하는 혁신적인 기법을 제안한다. 이를 통해 기존 방식 대비 자원 사용을 최대 20배 줄이고 지연 시간을 5배 개선하면서도 정확도를 유지할 수 있다.
Abstract
본 연구는 신경망 온칩 구현을 위한 혁신적인 양자화 기법인 High Granularity Quantization (HGQ)을 제안한다. HGQ는 기존 층 단위 양자화 방식과 달리 개별 가중치와 활성화 함수 단위로 양자화 비트폭을 최적화한다. 이를 통해 자원 사용과 지연 시간을 크게 줄이면서도 정확도를 유지할 수 있다.
HGQ의 핵심 내용은 다음과 같다:
가중치와 활성화 함수의 양자화 비트폭을 개별적으로 최적화하기 위해 새로운 gradient 기반 기법을 제안했다.
양자화 비트폭에 대한 surrogate gradient를 계산하여 비트폭을 gradient 기반으로 최적화할 수 있게 했다.
자원 사용을 더 정확하게 추정하기 위해 Effective Bit Operations (EBOPs) 지표를 제안했다.
제안한 HGQ 기법을 오픈소스 라이브러리로 구현하여 누구나 쉽게 사용할 수 있게 했다.
실험 결과, HGQ는 기존 방식 대비 자원 사용을 최대 20배, 지연 시간을 5배 개선하면서도 정확도를 유지할 수 있었다. 제안된 HGQ 기법은 FPGA 등 제한된 자원의 초저지연 신경망 추론 시스템에 효과적으로 적용될 수 있을 것으로 기대된다.
Stats
제안된 HGQ 기법을 통해 최대 20배의 자원 사용 감소와 5배의 지연 시간 개선을 달성할 수 있었다.
HGQ 모델은 기존 방식 대비 정확도를 유지하면서도 자원 사용과 지연 시간을 크게 줄일 수 있었다.
Quotes
"HGQ는 기존 층 단위 양자화 방식과 달리 개별 가중치와 활성화 함수 단위로 양자화 비트폭을 최적화한다."
"HGQ를 통해 자원 사용을 최대 20배, 지연 시간을 5배 개선하면서도 정확도를 유지할 수 있었다."