Concetti Chiave
Parcae는 선점형 인스턴스에서 DNN 학습 비용을 줄이기 위해 예측된 자원 변화에 따라 병렬화 전략을 사전에 조정하여 이벤트 처리 비용을 크게 줄이는 시스템이다.
Sintesi
이 논문은 선점형 인스턴스를 활용하여 DNN 학습 비용을 절감하는 Parcae 시스템을 소개한다.
기존 시스템들은 선점 및 할당 이벤트 발생 후 대응하는 반응형 접근법을 사용하여 성능과 확장성이 제한적이었다. Parcae는 예측된 자원 변화에 따라 사전에 병렬화 전략을 조정하는 선제적 접근법을 사용한다.
Parcae는 선점 가능성을 고려한 새로운 성능 지표인 liveput을 정의하고, 이를 최대화하는 병렬화 전략을 탐색한다. 또한 가벼운 실시간 마이그레이션 기법을 사용하여 선점에 효과적으로 대응한다.
실험 결과, Parcae는 기존 시스템 대비 최대 10배 성능 향상을 보였으며, 특히 높은 선점률 환경에서도 거의 최적에 가까운 성능을 달성할 수 있었다.
Statistiche
단일 GPT-3 모델 학습에 1.5백만 GPU 시간과 4.6백만 달러가 소요됨
선점형 인스턴스는 온디맨드 인스턴스 대비 최대 90% 저렴할 수 있음
Citazioni
"단일 GPT-3 모델 학습에 1.5백만 GPU 시간과 4.6백만 달러가 소요됨"
"선점형 인스턴스는 온디맨드 인스턴스 대비 최대 90% 저렴할 수 있음"