Core Concepts
GPU의 대규모 병렬 처리 기능과 GPU 주도 통신을 활용하여 종속적인 집합 통신을 계산과 융합함으로써 통신 지연을 숨기고 피크 대역폭 요구를 줄일 수 있다.
Abstract
이 논문은 분산 ML 모델에서 발생하는 집합 통신 병목 현상을 해결하기 위한 접근 방식을 제안한다. 저자들은 GPU의 대규모 병렬 처리 기능과 GPU 주도 통신을 활용하여 종속적인 집합 통신을 계산과 융합하는 방법을 개발했다. 이를 통해 통신 지연을 숨기고 피크 대역폭 요구를 줄일 수 있다.
구체적으로 저자들은 다음과 같은 세 가지 프로토타입 융합 연산자를 개발했다:
Embedding + All-to-All: 임베딩 풀링 계산과 All-to-All 통신을 융합하여 실행 시간을 최대 31% 단축했다.
GEMV + AllReduce: GEMV 계산과 AllReduce 통신을 융합하여 실행 시간을 최대 22% 단축했다.
GEMM + All-to-All: GEMM 계산과 All-to-All 통신을 융합하여 실행 시간을 최대 20% 단축했다.
이러한 융합 연산자는 PyTorch 및 Triton 프레임워크에 통합되어 개발자들이 쉽게 활용할 수 있도록 했다. 대규모 분산 환경에서의 시뮬레이션 결과, 제안 기법이 DLRM 실행 시간을 21% 단축할 수 있음을 보였다.
Stats
제안 기법의 Embedding + All-to-All 융합 연산자가 기존 대비 최대 32% 실행 시간 단축
GEMV + AllReduce 융합 연산자가 기존 대비 최대 22% 실행 시간 단축
GEMM + All-to-All 융합 연산자가 기존 대비 최대 20% 실행 시간 단축
128노드 시스템에서 DLRM 실행 시간을 21% 단축
Quotes
"GPU의 대규모 병렬 처리 기능과 GPU 주도 통신을 활용하여 종속적인 집합 통신을 계산과 융합함으로써 통신 지연을 숨기고 피크 대역폭 요구를 줄일 수 있다."
"제안 기법의 Embedding + All-to-All 융합 연산자가 기존 대비 최대 32% 실행 시간 단축"
"128노드 시스템에서 DLRM 실행 시간을 21% 단축"