Keskeiset käsitteet
분산 딥러닝 학습을 위한 최적의 하드웨어 가속기 아키텍처를 찾는 새로운 기술을 제안한다.
Tiivistelmä
이 논문은 분산 딥러닝 학습을 위한 하드웨어 가속기 아키텍처를 최적화하는 새로운 기술인 WHAM을 소개한다. WHAM은 다음과 같은 핵심 내용을 다룬다:
개별 가속기 설계 최적화:
특정 DNN 모델, 면적 및 전력 제약 하에서 엔드-투-엔드 학습 지표를 최대화하는 최적의 아키텍처 설계
다양한 DNN 워크로드에 대해 공통적으로 잘 동작하는 아키텍처 식별
WHAM이 생성한 아키텍처와 이전 학습 가속기 간 성능 비교
분산 학습을 위한 전역 최적화:
파이프라인 및/또는 텐서 모델 병렬 학습을 위한 이상적인 가속기 설계
개별 가속기를 튜닝한 이종 설계가 균일한 파이프라인보다 우수한지 평가
WHAM은 가속기 공급업체가 제공하는 특수화된 프로세서(예: 텐서 코어, 벡터 코어)를 활용하여 DNN 연산자를 효율적으로 실행할 수 있는 아키텍처 템플릿을 사용한다. 이를 통해 코어 크기와 개수를 튜닝하여 학습 관련 지표를 최적화한다.
WHAM은 문제를 관리 가능한 하위 문제로 분해하여 접근한다. 먼저 각 파이프라인 및/또는 모델 병렬 단계에 대해 적합한 아키텍처를 찾고, 이후 전역 최적화를 통해 전체 파이프라인에 대한 최적의 가속기를 식별한다. 이 과정에서 WHAM은 새로운 휴리스틱 기반 접근법과 정수 계획법을 활용하여 효율적으로 탐색 공간을 탐색한다.
실험 결과, WHAM은 기존 접근법 대비 평균 31배 빠르게 수렴하며, 12배 높은 처리량을 제공한다. 또한 WHAM은 TPUv2 대비 12% 향상된 처리량을 달성한다.
Tilastot
제안된 WHAM 방법은 기존 접근법 대비 평균 31배 빠르게 수렴한다.
WHAM이 생성한 설계는 기존 접근법 대비 평균 12배 높은 처리량을 제공한다.
WHAM의 최적화된 설계는 TPUv2 대비 12% 향상된 처리량을 달성한다.
Lainaukset
"WHAM은 분산 딥러닝 학습을 위한 가속기 아키텍처와 연산자 실행 일정을 동시에 최적화하는 일반화된 확장 가능한 접근법을 제공한다."
"WHAM은 가속기 공급업체가 제공하는 특수화된 프로세서(예: 텐서 코어, 벡터 코어)를 활용하여 DNN 연산자를 효율적으로 실행할 수 있는 아키텍처 템플릿을 사용한다."