Core Concepts
Holmes는 이기종 NIC 환경에서 효율적으로 대규모 언어 모델을 학습할 수 있는 분산 학습 프레임워크이다.
Abstract
Holmes는 대규모 언어 모델(LLM) 학습을 위한 분산 학습 프레임워크이다. 기존 LLM 학습 프레임워크는 동종의 고속 RDMA NIC 환경에 최적화되어 있어, 이기종 NIC 환경에서는 성능이 저하된다.
Holmes는 다음과 같은 핵심 기능을 제공한다:
- 크로스 클러스터 파이프라인 병렬화: 클러스터 간 파이프라인 병렬화를 통해 이기종 NIC 환경에서도 효율적인 학습이 가능하다.
- 자동 NIC 선택: 데이터 병렬화 그룹을 NIC 유형에 따라 동적으로 구성하여 고속 RDMA NIC을 최대한 활용한다.
- 자기 적응형 파이프라인 분할: NIC 성능 차이를 고려하여 모델 레이어를 동적으로 분할하여 할당한다.
이를 통해 Holmes는 이기종 NIC 환경에서도 동종 RDMA NIC 환경 수준의 성능을 달성하며, 순수 이더넷 환경 대비 큰 폭의 성능 향상을 보인다. 또한 기존 주요 LLM 학습 프레임워크와 호환되어 활용도가 높다.
Stats
InfiniBand NIC 환경에서 TFLOPS 197, Throughput 99.23 samples/s
RoCE NIC 환경에서 TFLOPS 160, Throughput 80.54 samples/s
이더넷 NIC 환경에서 TFLOPS 122, Throughput 61.32 samples/s
Quotes
"Large language models (LLMs) such as GPT-3, OPT, and LLaMA have demonstrated remarkable accuracy in a wide range of tasks."
"Typically, this training is carried out in specialized GPU clusters equipped with homogeneous high-speed Remote Direct Memory Access (RDMA) network interface cards (NICs)."
"Current LLM training frameworks, like Megatron-LM and Megatron-DeepSpeed, focus primarily on optimizing training within homogeneous cluster settings."