새로운 AI/ML 가속기 평가: IPU, RDU, NVIDIA/AMD GPU

Core Concepts

새로운 AI/ML 가속기 플랫폼인 Graphcore IPU, Sambanova RDU, NVIDIA/AMD GPU의 하드웨어 및 소프트웨어 설계 특징을 분석하고, 다양한 벤치마크 평가를 통해 각 플랫폼의 장단점을 파악하여 향후 AI/ML 하드웨어 가속기 개발을 위한 통찰을 제공한다.

Abstract

이 연구는 새로운 AI/ML 가속기 플랫폼인 Graphcore IPU, Sambanova RDU, NVIDIA/AMD GPU의 하드웨어 및 소프트웨어 설계 특징을 분석하고, 다양한 벤치마크 평가를 수행하여 각 플랫폼의 장단점을 파악하였다. Graphcore IPU는 MIMD 아키텍처와 풍부한 온-칩 메모리를 특징으로 하며, 특히 CNN 및 GNN 워크로드에서 우수한 성능을 보였다. Sambanova RDU는 데이터 흐름 기반 CGRA 아키텍처를 사용하여 높은 병렬 처리 능력을 제공하지만, 컴파일러 최적화 과정에서 불안정성이 관찰되었다. GPU 플랫폼은 SIMT 아키텍처와 강력한 메모리 계층 구조를 바탕으로 우수한 성능을 보였으며, 특히 SPMM 연산에서 가장 높은 처리량을 달성하였다. 이 연구 결과는 향후 AI/ML 하드웨어 가속기 개발을 위한 중요한 참고 자료가 될 것이다. 각 플랫폼의 고유한 특징과 성능 특성을 이해함으로써, 새로운 AI/ML 워크로드에 맞춤화된 하드웨어 아키텍처를 설계할 수 있을 것이다.

Stats

Graphcore IPU GC200 칩은 1472개의 독립적인 IPU-tile을 포함하며, 최대 8832개의 병렬 프로그램 스레드를 처리할 수 있다. Sambanova RDU SN10 칩은 640개의 PCU와 640개의 PMU를 포함하며, 최대 325 TFLOPS의 FP16 성능을 제공한다. NVIDIA V100 GPU는 7.8 TFLOPS의 FP32 성능과 125 TFLOPS의 Tensor Core 성능을 제공한다. NVIDIA A100 GPU는 19.5 TFLOPS의 FP32 성능과 312 TFLOPS의 Tensor Core 성능을 제공한다. AMD MI100 GPU는 23.1 TFLOPS의 FP32 성능과 46.14 TFLOPS의 Matrix Core 성능을 제공한다.

Quotes

"IPU-tiles는 완전히 독립적인 프로그램을 실행할 수 있어 GPU 플랫폼보다 더 큰 유연성을 제공한다." "Sambanova RDU는 PCU와 PMU 간의 데이터 흐름 기반 매핑을 통해 높은 병렬 처리 능력을 제공한다." "GPU 플랫폼은 SIMT 아키텍처와 강력한 메모리 계층 구조를 바탕으로 우수한 성능을 보인다."

Key Insights Distilled From

Evaluating Emerging AI/ML Accelerators

by Hongwu Peng,... at arxiv.org 03-13-2024

https://arxiv.org/pdf/2311.04417.pdf

Deeper Inquiries

새로운 AI/ML 워크로드의 요구사항을 충족하기 위해 어떤 하드웨어 아키텍처 혁신이 필요할까?

새로운 AI/ML 워크로드의 요구사항을 충족하기 위해서는 먼저 병렬 처리 능력이 뛰어난 하드웨어 아키텍처가 필요합니다. 이러한 워크로드는 대규모 데이터셋과 복잡한 연산을 다루기 때문에 고도의 병렬화가 필요합니다. 또한, 메모리 계층 구조와 메모리 대역폭이 효율적으로 관리되어야 합니다. 데이터 이동 및 액세스 지연을 최소화하고 처리량을 극대화하기 위해 메모리 계층이 최적화되어야 합니다. 또한, 효율적인 데이터 흐름을 지원하는 데이터 흐름 기반 아키텍처가 중요합니다. 이러한 아키텍처는 복잡한 AI/ML 알고리즘의 특성을 고려하여 설계되어 있어 처리량과 에너지 효율성을 향상시킬 수 있습니다.

데이터 흐름 기반 아키텍처와 SIMT 아키텍처의 장단점은 무엇이며, 이를 어떻게 결합할 수 있을까?

데이터 흐름 기반 아키텍처는 데이터의 이동에 초점을 맞춘 구조로, 병렬 처리 및 연산에 특히 유용합니다. 이러한 아키텍처는 복잡한 AI/ML 워크로드에 적합하며, 데이터 의존성을 줄이고 효율적인 연산을 가능하게 합니다. 반면, SIMT(Single Instruction, Multiple Threads) 아키텍처는 동일한 명령어를 다수의 스레드에 적용하여 병렬 처리를 지원합니다. 이는 GPU와 같은 플랫폼에서 주로 사용됩니다. 두 아키텍처를 결합하는 방법은 데이터 흐름 기반 아키텍처의 유연성과 병렬 처리 능력을 SIMT 아키텍처의 효율적인 명령어 수행과 결합하는 것입니다. 예를 들어, 데이터 흐름 기반 아키텍처를 사용하여 데이터 의존성을 최소화하고 병렬 처리를 최적화한 후, SIMT 아키텍처를 통해 명령어를 효율적으로 분배하여 연산을 수행할 수 있습니다. 이러한 결합은 AI/ML 워크로드의 요구사항을 효과적으로 처리할 수 있는 혼합 아키텍처를 구축하는 데 도움이 될 것입니다.

AI/ML 가속기 개발에 있어 메모리 계층 구조와 메모리 대역폭의 역할은 무엇일까?

AI/ML 가속기 개발에서 메모리 계층 구조와 메모리 대역폭은 중요한 역할을 합니다. 메모리 계층 구조는 데이터의 효율적인 액세스와 관리를 위해 설계되며, 다양한 종류의 메모리를 조직화하여 데이터 이동 및 연산에 최적화된 환경을 제공합니다. 일반적으로 빠른 액세스 속도를 제공하는 레지스터와 캐시 메모리, 중간 수준의 액세스 속도를 갖는 메인 메모리, 그리고 대용량 데이터 저장을 위한 보조 저장장치로 구성됩니다. 메모리 대역폭은 데이터를 메모리로부터 읽거나 쓰는 속도를 나타내며, 높은 대역폭은 빠른 데이터 이동과 처리를 가능하게 합니다. AI/ML 워크로드는 대규모 데이터셋을 다루기 때문에 높은 메모리 대역폭이 필수적입니다. 특히 병렬 처리를 지원하는 하드웨어 가속기에서는 데이터를 효율적으로 분배하고 처리하기 위해 높은 메모리 대역폭이 필요합니다. 메모리 계층 구조와 메모리 대역폭을 최적화하여 데이터 이동 및 액세스 지연을 최소화하고 처리량을 극대화할 수 있습니다.

새로운 AI/ML 가속기 평가: IPU, RDU, NVIDIA/AMD GPU

Evaluating Emerging AI/ML Accelerators

새로운 AI/ML 워크로드의 요구사항을 충족하기 위해 어떤 하드웨어 아키텍처 혁신이 필요할까?

데이터 흐름 기반 아키텍처와 SIMT 아키텍처의 장단점은 무엇이며, 이를 어떻게 결합할 수 있을까?

AI/ML 가속기 개발에 있어 메모리 계층 구조와 메모리 대역폭의 역할은 무엇일까?

Get PDF Summary in Seconds