แนวคิดหลัก
AMSP는 모델 상태 샤딩에 대한 유연성을 제공하여 통신 비용을 최소화하고, 통신과 계산의 효율적인 중첩을 통해 대규모 LLaMA 모델 학습 성능을 향상시킨다.
บทคัดย่อ
이 논문은 대규모 언어 모델(LLM) 학습의 GPU 메모리 소비 문제를 해결하기 위해 제안된 ZeRO 기법의 통신 오버헤드 문제를 다룹니다.
- 모델 상태(파라미터, 그래디언트, 옵티마이저 상태)의 유연한 샤딩 전략을 제안합니다. 각 구성 요소를 독립적으로 샤딩할 수 있어 통신 비용을 최소화할 수 있습니다.
- 통신 비용 분석을 통해 최적의 샤딩 전략을 찾는 최적화 문제를 정의합니다.
- 계산과 통신의 효율적인 중첩 기법을 도입하여 GPU 유휴 시간을 줄입니다.
- 토폴로지 인식 통신 배치 전략을 사용하여 네트워크 통신 비용을 추가로 감소시킵니다.
이러한 기법들을 통해 AMSP는 LLaMA 모델 학습 시 최대 52%의 모델 FLOPS 활용도를 달성하며, 기존 시스템 대비 최대 12.7배 향상된 학습 처리량을 보여줍니다.
สถิติ
LLaMA-7B 모델 학습 시 8 GPU에서 63%의 모델 FLOPS 활용도를 보이지만, 1024 GPU로 확장하면 36%로 감소
LLaMA-13B 모델 학습 시 8 GPU에서 47%의 모델 FLOPS 활용도를 보이지만, 1024 GPU로 확장하면 4%로 감소
คำพูด
"ZeRO 기법은 통신 비용 증가로 인해 대규모 LLM 학습 시 성능 저하 문제가 발생한다."
"AMSP는 모델 상태 샤딩에 대한 유연성을 제공하여 통신 비용을 최소화하고, 통신과 계산의 효율적인 중첩을 통해 대규모 LLaMA 모델 학습 성능을 향상시킨다."