이 논문은 FPGA 기반 대규모 언어 모델 추론을 위한 공간 가속화의 실현 가능성과 잠재력을 조사한다.
주요 내용은 다음과 같다:
대규모 언어 모델 추론의 계산 및 메모리 요구사항을 심층적으로 분석하고, FPGA 리소스 제약을 고려한 성능 추정 모델을 제안한다.
다중 FPGA 환경에서의 분산 추론을 위한 분석 프레임워크를 확장한다. 이를 통해 다양한 병렬화 기법의 장단점을 파악할 수 있다.
재사용 가능한 고수준 합성 커널 라이브러리를 개발하여 FPGA 기반 공간 가속기 구현을 용이하게 한다.
실제 FPGA 구현을 통해 제안한 분석 모델의 유효성을 검증하고, 기존 FPGA 및 GPU 가속기 대비 뛰어난 성능을 달성한다.
이 연구는 FPGA 기반 공간 가속화가 대규모 언어 모델 추론에서 중요한 역할을 할 수 있음을 보여준다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究