Core Concepts
실제 처리-메모리 시스템에서 널리 사용되는 분산 최적화 알고리즘의 성능, 정확도 및 확장성을 이해하고자 한다.
Abstract
이 논문은 실제 처리-메모리(PIM) 시스템에서 널리 사용되는 분산 최적화 알고리즘을 구현하고 평가합니다. 주요 내용은 다음과 같습니다:
중앙 노드 기반의 분산 최적화 알고리즘인 Mini-Batch Stochastic Gradient Descent with Model Averaging (MA-SGD), Mini-Batch Stochastic Gradient Descent Gradient Averaging (GA-SGD), 분산 Alternating Direction Method of Multipliers (ADMM) 알고리즘을 UPMEM의 실제 PIM 시스템에 구현했습니다.
두 개의 대규모 데이터셋 YFCC100M-HNfc6와 Criteo를 사용하여 이 알고리즘들의 성능, 정확도, 확장성을 엄격하게 평가했습니다.
CPU 및 GPU 기준선과 비교했을 때, PIM 시스템이 많은 메모리 바운드 기계 학습 학습 워크로드에 대한 실용적인 대안이 될 수 있음을 보여줍니다.
알고리즘 선택이 PIM 성능에 매우 중요하다는 것을 보여줍니다. 예를 들어, ADMM 알고리즘이 MA-SGD 및 GA-SGD보다 PIM에 더 적합합니다.
현대 PIM 아키텍처가 많은 데이터 집약적 기계 학습 학습 워크로드에 대해 약 선형적으로 확장되지 않는다는 것을 발견했습니다.
이 연구 결과는 PIM 하드웨어 설계와 분산 최적화 알고리즘 간의 공동 설계 관점으로 전환할 필요성을 시사합니다.
Stats
256 DPU에서 LR MA-SGD의 한 global epoch 당 통신/동기화 시간은 170.42초입니다.
2048 DPU에서 SVM GA-SGD의 한 global epoch 당 데이터 이동 시간은 22.29초입니다.
256 DPU에서 LR ADMM의 한 global epoch 당 통신/동기화 시간은 6.79초입니다.
Quotes
"현대 범용 PIM 아키텍처는 연산 및 데이터 유형이 PIM 하드웨어에 기본적으로 지원되는 경우 많은 메모리 바운드 기계 학습 학습 워크로드에 대한 실용적인 대안이 될 수 있습니다."
"알고리즘 선택이 PIM 성능에 매우 중요합니다."
"현대 PIM 아키텍처는 많은 데이터 집약적 기계 학습 학습 워크로드에 대해 약 선형적으로 확장되지 않습니다."