Khái niệm cốt lõi
새로운 GPU에 대한 접근 제한 없이, 다양한 딥러닝 모델의 학습 및 추론 성능을 예측할 수 있는 NeuSight 프레임워크를 소개합니다.
Tóm tắt
NeuSight: 딥러닝 학습 및 추론을 위한 GPU 성능 예측 프레임워크
본 연구 논문에서는 새로운 GPU에 대한 접근 없이 다양한 딥러닝 모델의 학습 및 추론 성능을 예측할 수 있는 NeuSight 프레임워크를 소개합니다.
딥러닝과 GPU 성능 예측의 필요성
딥러닝 모델의 크기가 증가하고 새로운 GPU가 빠르게 출시됨에 따라, 개발자들은 모델 학습 및 배포에 최적화된 GPU를 선택하는 데 어려움을 겪고 있습니다. 특히 새로운 GPU는 높은 가격과 제한된 접근성으로 인해 성능을 직접 측정하기 어려운 경우가 많습니다. 이러한 문제를 해결하기 위해 NeuSight는 GPU 아키텍처 정보와 머신러닝 기법을 활용하여 새로운 GPU에서의 딥러닝 모델 성능을 예측합니다.
기존 연구의 한계
기존 GPU 성능 예측 연구는 크게 분석 모델, 선형 회귀 모델, 신경망 접근 방식으로 나뉩니다. 그러나 이러한 연구들은 새로운 GPU 및 모델에 대한 예측 정확도가 떨어지는 한계를 보였습니다. 분석 모델은 GPU 실행의 세부 정보를 고려하지 않고, 선형 회귀 모델은 GPU 활용도의 비선형성을 포착하지 못하며, 신경망 접근 방식은 GPU 아키텍처 정보를 충분히 활용하지 못하는 문제점을 가지고 있습니다.
NeuSight 프레임워크: 타일 기반 예측 및 성능 법칙 적용
NeuSight는 GPU의 타일 기반 실행 전략과 딥러닝 커널의 계산 및 메모리 제약 조건을 고려하여 새로운 예측 메커니즘을 제시합니다.
- 타일 기반 예측: NeuSight는 딥러닝 커널을 여러 개의 작은 작업 단위인 타일로 분해하고, 각 타일의 GPU 활용도를 예측하여 전체 커널의 지연 시간을 계산합니다. 이를 통해 복잡한 커널 실행 패턴을 효과적으로 모델링하고 예측 정확도를 향상시킵니다.
- 성능 법칙 적용: NeuSight는 GPU의 최대 FLOPS, 메모리 대역폭과 같은 성능 법칙을 예측 모델에 적용하여 예측 결과의 신뢰성을 높입니다.
NeuSight의 성능 평가
다양한 GPU (Nvidia H100, A100-80GB, V100, A100-40GB, P100, T4, L4) 및 딥러닝 워크로드 (BERT, GPT2, GPT3, OPT, Switch Transformer)를 사용한 평가 결과, NeuSight는 H100, L4, A100-80GB GPU 및 GPT3, OPT 모델에 대한 학습 없이도 높은 예측 정확도를 보였습니다.
결론
NeuSight는 새로운 GPU에 대한 접근 없이도 딥러닝 모델의 성능을 예측할 수 있는 프레임워크입니다. NeuSight를 사용하면 개발자들은 다양한 GPU에서 모델의 성능을 비교하고, 요구 사항에 맞는 GPU를 선택하며, 새로운 모델 아키텍처의 배포 가능성을 평가할 수 있습니다.
Thống kê
H100에서 (512x64) x (64x512) 행렬 곱셈을 실행할 때 배치 크기가 512일 경우 Peak FLOPS 활용도는 86.0%입니다.
GPT3 모델의 학습 및 추론에서 H100 GPU에 대한 지연 시간 예측 오차는 각각 2.3%입니다.
NeuSight는 다양한 딥러닝 워크로드 및 최신 GPU에서 평균 8.9%의 오차율을 보였습니다.
기존 MLP 기반 예측 모델은 140%, 선형 회귀 기반 예측 모델은 60.8%의 오차율을 보였습니다.
4-GPU 서버에서 분산 학습 시 NeuSight는 GPT2 및 GPT3 모델에서 평균 5.4%의 오차율을 나타냈습니다.
Trích dẫn
"However, access to newer GPUs is often limited, raising important questions about the performance of new model architectures on existing GPUs, existing models on new GPUs, and new model architectures on new GPUs."
"NeuSight outperforms prior work across a variety of deep learning workloads and the most up-to-date GPUs."
"It reduces the percentage error from 121.4% and 30.8% to 2.3% in predicting the latency of GPT3 model for training and inference on H100, in comparison to state of the art prior works [26, 62], respectively, where GPT3 and H100 were not used to train any framework."