Core Concepts
처리 인-메모리 시스템에서 시각 변환기 모델의 추론 지연을 최소화하기 위한 효율적인 워크로드 오케스트레이션 기법을 제안한다.
Abstract
이 논문은 처리 인-메모리(PIM) 시스템에서 시각 변환기 모델의 추론 지연을 최소화하기 위한 Allspark 프레임워크를 제안한다.
세부적인 분할 및 체계적인 레이아웃, 순환 데이터 흐름을 통해 PIM의 대규모 병렬 처리 능력을 최대한 활용한다.
리소스 제한된 분산 PIM 시스템에서 전체 모델을 실행하고 추론 지연을 최소화하기 위해 정수 선형 프로그래밍 기반의 스케줄링 기법을 제안한다.
복잡한 지역-전역 데이터 상호작용에 대해 그리디 기반의 매핑 방법을 제공하여 NoC 통신 비용을 최소화한다.
실험 결과, Allspark은 다양한 시각 변환기 모델에 대해 1.2배~24.0배의 추론 속도 향상을 보였으며, Allspark 강화 PIM 시스템은 Nvidia V100 GPU 대비 평균 2.3배 속도 향상과 20배~55배의 에너지 절감 효과를 달성했다.
Stats
시각 변환기 모델의 추론 속도가 GPU 대비 2.3배 향상되었다.
시각 변환기 모델의 에너지 소비가 GPU 대비 20배~55배 절감되었다.