Core Concepts
메모리 내 처리 기술을 활용하여 일반 행렬-벡터 곱셈 가속화를 달성하기 위해서는 메모리 내 데이터 배치가 핵심적인 역할을 한다.
Abstract
이 논문은 메모리 내 처리(PIM) 기술을 활용하여 일반 행렬-벡터 곱셈(GEMV) 가속화를 달성하는 방법을 제안한다. GEMV는 생성형 AI(GenAI) 추론에서 중요한 연산이지만 높은 메모리 대역폭을 요구한다. PIM 기술은 메모리 대역폭 향상을 통해 GEMV 가속화를 달성할 수 있지만, 데이터 배치가 최적화되지 않으면 이를 충분히 활용할 수 없다.
이를 위해 저자들은 데이터 배치에 영향을 미치는 다양한 요인들을 분석하고, PIMnast라는 방법론을 제안한다. PIMnast는 이러한 요인들을 균형있게 고려하여 PIM 가속화를 극대화할 수 있는 데이터 배치를 도출한다. 또한 계산 오케스트레이션과 자원 관리 기법을 통해 추가적인 가속화를 달성한다.
실험 결과, PIMnast와 추가 기법들을 적용하면 GEMV 연산에서 최대 6.86배, 전체 GenAI 추론에서 최대 5배의 성능 향상을 달성할 수 있다.
Stats
GEMV 연산은 최대 120GB/s의 DRAM 대역폭을 요구할 수 있다.
PIM 기술은 최대 7배의 메모리 대역폭 향상을 제공할 수 있다.
PIMnast와 추가 기법들을 적용하면 GEMV 연산에서 최대 6.86배, 전체 GenAI 추론에서 최대 5배의 성능 향상을 달성할 수 있다.
Quotes
"메모리 내 처리(PIM) 기술을 활용하여 일반 행렬-벡터 곱셈(GEMV) 가속화를 달성하는 데 있어서 데이터 배치가 핵심적인 역할을 한다."
"PIMnast는 다양한 요인들을 균형있게 고려하여 PIM 가속화를 극대화할 수 있는 데이터 배치를 도출한다."
"PIMnast와 추가 기법들을 적용하면 GEMV 연산에서 최대 6.86배, 전체 GenAI 추론에서 최대 5배의 성능 향상을 달성할 수 있다."