Core Concepts
이기종 GPU 클러스터에서 대규모 모델 학습의 효율성을 높이기 위해 스케줄링과 적응형 병렬화를 통합적으로 고려하는 방법을 제안한다.
Abstract
이 논문은 이기종 GPU 클러스터에서 대규모 모델 학습의 효율성을 높이기 위해 스케줄링과 적응형 병렬화를 통합적으로 고려하는 Crius 시스템을 제안한다.
스케줄링 공간이 적응형 병렬화로 인해 지수적으로 증가하여 정확한 성능 데이터 수집의 어려움이 발생한다.
Crius는 Cell이라는 새로운 스케줄링 단위를 제안하여 이 문제를 해결한다. Cell은 자원 할당과 파이프라인 단계가 결정된 상태로, 정확하고 효율적인 성능 데이터 수집이 가능하다.
Crius의 민첩한 추정기는 계산과 통신 부분을 분리하여 정확하고 빠른 성능 추정을 제공한다.
Crius의 Cell 기반 병렬화 튜너는 추정 결과를 활용하여 탐색 공간을 효과적으로 축소한다.
실험 결과, Crius는 기존 시스템 대비 최대 48.9%의 JCT 감소, 71.0%의 대기 시간 감소, 1.49배의 클러스터 처리량 향상을 달성한다.
Stats
제안된 Crius 시스템은 기존 시스템 대비 최대 48.9%의 JCT 감소를 달성했다.
Crius는 최대 71.0%의 대기 시간 감소를 달성했다.
Crius는 최대 1.49배의 클러스터 처리량 향상을 달성했다.
Quotes
"Joint consideration of scheduling and adaptive parallelism offers great opportunities for improving the training efficiency of large models in heterogeneous GPU clusters."
"Crius proposes a novel scheduling granularity called Cell. It represents a job with deterministic resources and pipeline stages."
"Crius then accurately estimates Cells and efficiently schedules training jobs."