핵심 개념
처리 인-메모리 시스템에서 시각 변환기 모델의 추론 지연을 최소화하기 위한 효율적인 워크로드 오케스트레이션 기법을 제안한다.
초록
이 논문은 처리 인-메모리(PIM) 시스템에서 시각 변환기 모델의 추론 지연을 최소화하기 위한 Allspark 프레임워크를 제안한다.
- 세부적인 분할 및 체계적인 레이아웃, 순환 데이터 흐름을 통해 PIM의 대규모 병렬 처리 능력을 최대한 활용한다.
- 리소스 제한된 분산 PIM 시스템에서 전체 모델을 실행하고 추론 지연을 최소화하기 위해 정수 선형 프로그래밍 기반의 스케줄링 기법을 제안한다.
- 복잡한 지역-전역 데이터 상호작용에 대해 그리디 기반의 매핑 방법을 제공하여 NoC 통신 비용을 최소화한다.
실험 결과, Allspark은 다양한 시각 변환기 모델에 대해 1.2배~24.0배의 추론 속도 향상을 보였으며, Allspark 강화 PIM 시스템은 Nvidia V100 GPU 대비 평균 2.3배 속도 향상과 20배~55배의 에너지 절감 효과를 달성했다.
통계
시각 변환기 모델의 추론 속도가 GPU 대비 2.3배 향상되었다.
시각 변환기 모델의 에너지 소비가 GPU 대비 20배~55배 절감되었다.