Keskeiset käsitteet
추천 모델은 깊은 신경망과 대규모 임베딩 테이블을 사용하여 계산 및 메모리 집약적인 프로세스를 거치므로, Hotline은 CPU 메인 메모리와 GPU HBM을 효과적으로 활용하여 이러한 문제를 해결한다.
Tiivistelmä
이 논문은 추천 시스템 학습을 위한 이기종 가속 파이프라인 Hotline을 소개한다. 추천 모델은 깊은 신경망과 대규모 임베딩 테이블을 사용하여 계산 및 메모리 집약적인 프로세스를 거치므로, 기존의 CPU-GPU 하이브리드 모드와 GPU 전용 모드에는 한계가 있다.
Hotline은 다음과 같은 두 가지 핵심 통찰을 바탕으로 설계되었다:
- 메모리 내 접근 빈도 기반 임베딩 배치: Hotline은 실제 추천 시스템에서 특정 임베딩 엔트리에 대한 접근 빈도가 매우 높다는 점을 활용한다. 이를 통해 자주 접근되는 임베딩은 GPU 메모리에, 그렇지 않은 임베딩은 CPU 메인 메모리에 배치한다.
- 배치 인식 런타임 스케줄링: Hotline은 미니 배치를 인기 있는 입력과 그렇지 않은 입력으로 동적으로 분류하고, 이를 효율적으로 GPU와 CPU에 스케줄링한다. 인기 있는 입력은 GPU에서 실행되고, 그렇지 않은 입력은 CPU 메인 메모리에서 필요한 파라미터를 가져와 GPU에서 실행한다.
이를 통해 Hotline은 GPU의 계산 처리량을 최대한 활용하면서도 CPU 메인 메모리의 용량을 효과적으로 활용할 수 있다. 실제 데이터셋과 모델을 사용한 평가 결과, Hotline은 기존 Intel 최적화 CPU-GPU DLRM 대비 평균 2.2배 빠른 학습 시간을 달성했다.
Tilastot
추천 모델은 깊은 신경망과 대규모 임베딩 테이블을 사용하여 계산 및 메모리 집약적인 프로세스를 거친다.
실제 추천 시스템에서는 특정 임베딩 엔트리에 대한 접근 빈도가 매우 높다.
Hotline은 자주 접근되는 임베딩을 GPU 메모리에, 그렇지 않은 임베딩을 CPU 메인 메모리에 배치한다.
Hotline은 미니 배치를 인기 있는 입력과 그렇지 않은 입력으로 동적으로 분류하고, 이를 효율적으로 GPU와 CPU에 스케줄링한다.
Hotline은 Intel 최적화 CPU-GPU DLRM 대비 평균 2.2배 빠른 학습 시간을 달성했다.
Lainaukset
"Hotline develops a data-aware and model-aware scheduling pipeline by leveraging the insight that only a few embedding entries are frequently accessed (popular)."
"Hotline fragments a mini-batch into popular and non-popular micro-batches (µ-batches). It gathers the necessary working parameters for non-popular µ-batches from the CPU, while GPUs execute popular µ-batches."