Core Concepts
FPGA 기반 공간 가속화를 통해 대규모 언어 모델 추론의 효율성을 크게 향상시킬 수 있다.
Abstract
이 논문은 FPGA 기반 대규모 언어 모델 추론을 위한 공간 가속화의 실현 가능성과 잠재력을 조사한다.
주요 내용은 다음과 같다:
대규모 언어 모델 추론의 계산 및 메모리 요구사항을 심층적으로 분석하고, FPGA 리소스 제약을 고려한 성능 추정 모델을 제안한다.
다중 FPGA 환경에서의 분산 추론을 위한 분석 프레임워크를 확장한다. 이를 통해 다양한 병렬화 기법의 장단점을 파악할 수 있다.
재사용 가능한 고수준 합성 커널 라이브러리를 개발하여 FPGA 기반 공간 가속기 구현을 용이하게 한다.
실제 FPGA 구현을 통해 제안한 분석 모델의 유효성을 검증하고, 기존 FPGA 및 GPU 가속기 대비 뛰어난 성능을 달성한다.
이 연구는 FPGA 기반 공간 가속화가 대규모 언어 모델 추론에서 중요한 역할을 할 수 있음을 보여준다.
Stats
대규모 언어 모델 BERT의 경우, FPGA 기반 가속기가 기존 FPGA 가속기 대비 최대 13.4배 성능 향상을 달성했다.
GPT 생성 추론의 경우, FPGA 기반 가속기가 DFX FPGA 오버레이 대비 prefill 단계에서 2.2배, decode 단계에서 1.9배 성능 향상을 보였다. 또한 NVIDIA A100 GPU 대비 decode 단계에서 5.7배 에너지 효율 향상을 달성했다.
Quotes
"FPGA 기반 공간 가속화를 통해 대규모 언어 모델 추론의 효율성을 크게 향상시킬 수 있다."
"FPGA 기반 공간 가속기 설계를 위한 분석 모델과 재사용 가능한 고수준 합성 커널 라이브러리를 제공한다."
"실제 FPGA 구현을 통해 제안한 분석 모델의 유효성을 검증하고, 기존 FPGA 및 GPU 가속기 대비 뛰어난 성능을 달성한다."