核心概念
ATOM은 저렴한 하드웨어를 사용하여 분산 환경에서 대규모 모델을 비동기적으로 학습할 수 있는 탄력적인 분산 학습 프레임워크입니다.
摘要
이 논문은 대규모 언어 모델(LLM)을 효율적으로 학습하기 위한 ATOM이라는 분산 학습 프레임워크를 소개합니다.
ATOM의 주요 특징은 다음과 같습니다:
- 모델 전체를 단일 호스트(피어)에 수용하고 모델 스와핑을 통해 여러 피어에서 동시에 학습을 수행합니다. 이를 통해 중앙 장애 지점을 피할 수 있습니다.
- 정적 분석을 통해 최적의 모델 분할 전략을 식별하고 모델 실행과 스와핑을 원활하게 통합합니다.
- 분산 파이프라인 병렬 처리 방식에 비해 느린 네트워크 환경에서 최대 20배 향상된 학습 효율성을 보여줍니다.
저자들은 GPT-3 모델 구성을 사용하여 ATOM의 성능을 평가했습니다. 실험 결과, ATOM은 파이프라인 병렬 처리 방식보다 우수한 성능과 확장성을 보여줍니다.
統計資料
대규모 GPT-3 모델(175B 파라미터)은 약 2.8TB의 메모리를 필요로 합니다.
임베딩 레이어의 메모리 사용량은 1,920MB이며, 소프트맥스 레이어의 메모리 사용량은 3,072MB입니다.
10Gbps 네트워크에서 활성화 텐서 전송 속도는 최대 610Mbps로 제한됩니다.
레이어 로딩 시간은 활성화 텐서 전송 시간보다 훨씬 빠릅니다.
引述
"ATOM은 저렴한 하드웨어를 사용하여 분산 환경에서 대규모 모델을 비동기적으로 학습할 수 있는 탄력적인 분산 학습 프레임워크입니다."
"ATOM은 중앙 장애 지점을 피하고, 느린 네트워크 환경에서 파이프라인 병렬 처리 방식보다 최대 20배 향상된 학습 효율성을 보여줍니다."