toplogo
Sign In

32개의 GPU를 활용한 혁신적인 구성 가능한 시스템 아키텍처


Core Concepts
이 논문은 32개의 GPU를 단일 노드에 통합하는 혁신적인 구성 가능한 시스템 아키텍처를 소개합니다. 이 아키텍처는 BIOS 열거, GPU 드라이버 지원, AI 프레임워크 호환성 등의 기술적 과제를 해결하여 이전에는 불가능했던 강력한 컴퓨팅 성능을 제공합니다.
Abstract
이 논문은 구성 가능한 시스템 아키텍처를 통해 단일 노드에서 32개의 GPU를 효율적으로 활용하는 방법을 설명합니다. 구성 가능한 시스템 아키텍처의 개요: 기존 고정형 서버 인프라와 달리 동적이고 유연한 리소스 할당 모델을 제공합니다. GPU, 메모리, 스토리지 등의 리소스를 필요에 따라 유연하게 구성할 수 있습니다. 이를 통해 이전에는 불가능했던 "32 GPU 슈퍼컴퓨터"와 같은 구성을 실현할 수 있습니다. 기술적 과제 해결: BIOS 열거: 32개의 GPU를 지원하기 위해 CPU 메모리 창 제한 문제를 해결했습니다. GPU 드라이버 지원: NVIDIA CUDA와 AMD ROCm 드라이버를 최적화하여 64개의 GPU까지 지원하도록 확장했습니다. AI 프레임워크 호환성: PyTorch와 TensorFlow 등의 프레임워크를 개선하여 대규모 GPU 활용을 지원하도록 했습니다. 성능 및 결과: GPU 간 피어-투-피어 대역폭 테스트에서 이론적 최대 대역폭의 약 78%를 달성했습니다. LLaMA 7B 모델 학습 시간을 8GPU에서 19시간에서 32GPU에서 5시간으로 단축했습니다. 40억 개 셀의 Concorde 착륙 CFD 시뮬레이션을 32개의 GPU로 33시간 만에 수행했습니다. 결론 및 향후 과제: 이 아키텍처는 AI와 HPC 분야의 인프라 발전에 큰 기여를 할 것으로 기대됩니다. 향후 CXL 기술 통합을 통해 메모리 풀링과 코히어런스를 개선할 계획입니다.
Stats
32개의 64GB AMD Mi210 GPU를 단일 노드에 통합하면 총 2TB의 메모리가 필요합니다. GPU 간 피어-투-피어 대역폭은 약 25GB/s로 이론적 최대 32GB/s의 약 78%를 달성했습니다. LLaMA 7B 모델 학습 시 GPU 수를 8개에서 16개, 32개로 늘릴수록 학습 시간이 19시간 5분, 10시간 3.5분, 4시간 59.2분으로 단축되었습니다. 40억 개 셀의 Concorde 착륙 CFD 시뮬레이션을 32개의 GPU로 33시간 만에 수행했습니다.
Quotes
"이 아키텍처는 AI와 고성능 컴퓨팅 인프라의 미래에 큰 영향을 미칠 것입니다." "CXL 기술 통합을 통해 메모리 풀링과 코히어런스를 더욱 개선할 계획입니다."

Key Insights Distilled From

by John Ihnotic at arxiv.org 04-10-2024

https://arxiv.org/pdf/2404.06467.pdf
Scaling to 32 GPUs on a Novel Composable System Architecture

Deeper Inquiries

GPU 수를 64개 이상으로 확장할 경우 어떤 추가적인 기술적 과제가 발생할 수 있을까요?

64개 이상의 GPU로 확장할 경우 추가적인 기술적 과제가 발생할 수 있습니다. 첫째, BIOS 열거 문제가 더 복잡해질 수 있습니다. 더 많은 GPU를 관리하기 위해 더 많은 메모리가 필요하며, CPU의 메모리 창문 한계를 고려해야 합니다. 둘째, GPU 드라이버 지원이 더 많은 GPU를 관리하는 데 어려움을 겪을 수 있습니다. 더 많은 GPU를 효율적으로 활용하기 위해 드라이버가 최적화되어야 하며, PCIe 레인의 대역폭을 최대화해야 합니다. 셋째, AI 프레임워크 호환성 문제가 발생할 수 있습니다. 더 많은 GPU를 지원하기 위해 AI 프레임워크가 조정되어야 하며, 이는 개발자 및 엔지니어들에게 추가적인 작업을 요구할 수 있습니다.

이 아키텍처를 활용하여 어떤 새로운 AI 및 HPC 애플리케이션을 개발할 수 있을까요?

이 아키텍처를 활용하면 더 많은 GPU를 사용하여 더욱 복잡하고 대규모의 AI 및 HPC 애플리케이션을 개발할 수 있습니다. 예를 들어, 대규모 언어 모델 (LLM)의 훈련 시간을 크게 단축할 수 있습니다. 32개의 GPU를 사용하여 LLM 모델을 훈련하는 경우, 훈련 시간이 현저히 줄어들며, GPU 수가 증가함에 따라 선형적으로 성능이 향상됩니다. 또한, HPC 애플리케이션에서도 이 아키텍처를 사용하여 대규모 시뮬레이션 작업을 빠르게 처리할 수 있습니다. 예를 들어, Concorde 착륙 시뮬레이션과 같은 방대한 문제를 해결하는 데 32개의 AMD Instinct MI210 가속기를 사용하여 단 33시간 만에 완료할 수 있습니다.

구성 가능한 시스템 아키텍처가 데이터 센터 운영 및 관리에 미칠 수 있는 장기적인 영향은 무엇일까요?

구성 가능한 시스템 아키텍처는 데이터 센터 운영 및 관리에 긍정적인 장기적인 영향을 미칠 것으로 예상됩니다. 먼저, 이 아키텍처를 통해 데이터 센터는 더욱 유연하고 확장 가능한 솔루션을 구현할 수 있게 되어 빠르게 스케일링할 수 있습니다. 또한, 이 아키텍처는 자원 활용을 극대화하고 이질적 컴퓨팅을 가능하게 함으로써 데이터 센터의 효율성을 향상시킬 것으로 기대됩니다. 더불어, 이러한 구성 가능한 시스템은 더 많은 GPU 및 메모리를 포함한 더욱 강력한 서버를 생성할 수 있어, 미래의 AI 및 머신러닝 워크로드에 대한 계산 요구를 충족시키는 데 중요한 역할을 할 것으로 예상됩니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star