핵심 개념
대규모 언어 모델 개발을 위한 데이터센터 환경에서 발생하는 다양한 문제점과 해결 방안을 제시한다.
초록
이 논문은 대규모 언어 모델(LLM) 개발을 위한 데이터센터 환경에 대한 심층적인 특성 분석을 수행한다. 주요 내용은 다음과 같다:
LLM 워크로드와 기존 딥러닝 워크로드의 차이점 분석
LLM 워크로드는 기존 딥러닝 워크로드에 비해 훨씬 짧은 작업 시간(2.7~12.8배)을 보이며, 작업 대기 시간에서도 차이를 보임
LLM 워크로드의 GPU 활용도가 매우 높은 반면, CPU, 메모리, 네트워크 등 관련 자원은 상대적으로 저활용되는 문제 발생
LLM 워크로드 유형별 특성 분석
평가 작업이 전체 작업의 대부분을 차지하지만 GPU 자원 사용은 매우 적은 반면, 사전 학습 작업은 작업 수는 적지만 GPU 자원의 대부분을 소비
평가 작업의 경우 모델 로딩 및 데이터 전처리, 메트릭 계산 등에서 GPU 활용도가 낮은 문제 발생
데이터센터 인프라 활용 분석
GPU 활용도가 매우 높은 반면 CPU, 메모리, 네트워크 등 관련 자원은 저활용되는 문제 발생
이는 LLM이 계산 및 메모리 집약적이라는 특성을 반영하며, GPU 공유 기반 기술은 LLM 개발에 적합하지 않을 수 있음
작업 실패 분석
인프라 관련 오류가 가장 심각한 영향을 미치며, 특히 고온으로 인한 GPU 오류가 문제가 됨
이를 해결하기 위해 신속한 진단과 자동 복구 기능이 필요함
이러한 분석 결과를 바탕으로 저자들은 LLM 개발을 위한 두 가지 시스템을 제안한다. 하나는 장애 허용 사전 학습 시스템이며, 다른 하나는 평가 작업을 위한 분리 스케줄링 시스템이다.
통계
사전 학습 작업은 전체 작업의 3.2%만을 차지하지만 GPU 시간의 94.0%를 소비한다.
평가 작업은 전체 작업의 92.9%를 차지하지만 GPU 시간의 0.8%만을 소비한다.
사전 학습 작업은 평균 GPU 요구량이 1,152개인 반면, 평가 작업은 평균 1개의 GPU만을 요구한다.
인프라 관련 오류는 전체 GPU 시간의 82%를 차지하지만 작업 수는 전체의 11%에 불과하다.
인용구
"LLM 개발은 수천 개의 가속기를 필요로 하는 막대한 계산 인프라를 요구한다."
"LLM 개발 파이프라인은 기존 딥러닝 워크로드와 상당한 차이를 보인다."
"GPU는 LLM 개발의 주요 자원 소비자이지만, CPU, 메모리, 네트워크 등 관련 자원은 상대적으로 저활용되는 문제가 있다."