核心概念
AMD Versal ACAP의 다중 인공지능 엔진(AIE)을 활용하여 GotoBLAS2의 병렬 일반 행렬 곱셈(GEMM) 알고리즘을 최적화하고, 딥러닝 추론을 위한 혼합 정밀도 연산을 지원하는 아키텍처 특화 마이크로 커널을 제안한다.
摘要
이 논문은 AMD Versal Adaptive Compute Accelerated Platform(ACAP)에서 병렬 일반 행렬 곱셈(GEMM) 알고리즘의 설계를 다룬다. 주요 내용은 다음과 같다:
-
Versal ACAP의 다중 수준 메모리 계층을 효과적으로 활용하는 기법을 제안한다. 행렬 연산 데이터를 FPGA 메모리와 AIE 로컬 메모리에 적절히 배치하여 데이터 재사용성을 높인다.
-
AIE 타일의 벡터 유닛을 효율적으로 활용하기 위해 혼합 정밀도 산술을 지원하는 아키텍처 특화 마이크로 커널을 설계한다. 이를 통해 딥러닝 추론에 필요한 적응형 정밀도 연산을 수행할 수 있다.
-
다중 AIE 타일에 걸쳐 병렬 GEMM 설계를 도입하여 계산 처리량을 향상시킨다. 이에 대한 이론적 분석과 실험적 성능 프로파일링을 수행한다.
統計資料
단일 AIE 타일에서 GEMM 마이크로 커널은 초당 31.5 GMAC의 성능을 달성한다.
32개의 AIE 타일을 활용하면 초당 162.9 GMAC의 성능을 달성할 수 있다.
引述
"AMD/Xilinx introduced the Versal Adaptive Compute Accelerated Platform (ACAP) in 2019. This architecture integrates high-performance SIMD (single instruction, multiple data) processors, sophisticated input/output capabilities, and integrated memory controllers, accommodating a diverse range of workloads in general, and deep learning (DL) in particular."
"GEMM serves as the cornerstone for the software packages upon which a myriad of scientific and engineering codes are built. Moreover, DL training and inference with well-known convolutional neural networks (CNNs), as well as modern transformer encoders, cast a significant portion of their arithmetic cost in terms of this computational kernel."