이 논문은 LLM 추론을 위한 효율적인 하드웨어 가속기 설계 방법을 제안한다. 기존 하드웨어 컴파일러는 고정 소수점 및 부동 소수점 형식에 초점을 맞추고 있어, 새로운 데이터 형식을 사용하려면 전체 설계를 처음부터 다시 구현해야 한다는 문제가 있다.
MASE는 이를 해결하기 위해 하드웨어 인식 중간 표현(IR)을 제안한다. MASE IR은 소프트웨어 모델과 하드웨어 가속기 아키텍처를 모두 표현할 수 있다. 이를 통해 사용자는 새로운 데이터 형식을 쉽게 통합하여 하드웨어 최적화를 탐색할 수 있다.
MASE는 특히 마이크로스케일링(MX) 데이터 형식을 활용한다. MX 형식은 값 블록이 데이터 형식의 일부 구성 요소를 공유할 수 있어 메모리 크기를 효율적으로 줄일 수 있다. MASE는 LLM 추론을 위한 혼합 정밀도 MXInt 양자화 솔루션을 자동으로 찾아내고, 이를 효율적인 데이터 흐름 하드웨어 가속기에 매핑한다.
실험 결과, MASE는 8비트 고정 소수점 설계 대비 평균 24%의 정확도 향상과 3%의 면적 효율 오버헤드를 달성했다. 이는 MASE가 소프트웨어와 하드웨어 최적화를 통합하여 LLM 추론을 위한 효율적인 솔루션을 제공할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jianyi Cheng... at arxiv.org 04-22-2024
https://arxiv.org/pdf/2307.15517.pdfDeeper Inquiries