Основні поняття
대규모 언어 모델 개발을 위한 데이터센터 환경에서 발생하는 다양한 문제점과 해결 방안을 제시한다.
Анотація
이 논문은 대규모 언어 모델(LLM) 개발을 위한 데이터센터 환경에 대한 심층적인 특성 분석을 수행한다. 주요 내용은 다음과 같다:
- LLM 워크로드와 기존 딥러닝 워크로드의 차이점 분석
- LLM 워크로드는 기존 딥러닝 워크로드에 비해 훨씬 짧은 작업 시간(2.7~12.8배)을 보이며, 작업 대기 시간에서도 차이를 보임
- LLM 워크로드의 GPU 활용도가 매우 높은 반면, CPU, 메모리, 네트워크 등 관련 자원은 상대적으로 저활용되는 문제 발생
- LLM 워크로드 유형별 특성 분석
- 평가 작업이 전체 작업의 대부분을 차지하지만 GPU 자원 사용은 매우 적은 반면, 사전 학습 작업은 작업 수는 적지만 GPU 자원의 대부분을 소비
- 평가 작업의 경우 모델 로딩 및 데이터 전처리, 메트릭 계산 등에서 GPU 활용도가 낮은 문제 발생
- 데이터센터 인프라 활용 분석
- GPU 활용도가 매우 높은 반면 CPU, 메모리, 네트워크 등 관련 자원은 저활용되는 문제 발생
- 이는 LLM이 계산 및 메모리 집약적이라는 특성을 반영하며, GPU 공유 기반 기술은 LLM 개발에 적합하지 않을 수 있음
- 작업 실패 분석
- 인프라 관련 오류가 가장 심각한 영향을 미치며, 특히 고온으로 인한 GPU 오류가 문제가 됨
- 이를 해결하기 위해 신속한 진단과 자동 복구 기능이 필요함
이러한 분석 결과를 바탕으로 저자들은 LLM 개발을 위한 두 가지 시스템을 제안한다. 하나는 장애 허용 사전 학습 시스템이며, 다른 하나는 평가 작업을 위한 분리 스케줄링 시스템이다.
Статистика
사전 학습 작업은 전체 작업의 3.2%만을 차지하지만 GPU 시간의 94.0%를 소비한다.
평가 작업은 전체 작업의 92.9%를 차지하지만 GPU 시간의 0.8%만을 소비한다.
사전 학습 작업은 평균 GPU 요구량이 1,152개인 반면, 평가 작업은 평균 1개의 GPU만을 요구한다.
인프라 관련 오류는 전체 GPU 시간의 82%를 차지하지만 작업 수는 전체의 11%에 불과하다.
Цитати
"LLM 개발은 수천 개의 가속기를 필요로 하는 막대한 계산 인프라를 요구한다."
"LLM 개발 파이프라인은 기존 딥러닝 워크로드와 상당한 차이를 보인다."
"GPU는 LLM 개발의 주요 자원 소비자이지만, CPU, 메모리, 네트워크 등 관련 자원은 상대적으로 저활용되는 문제가 있다."