核心概念
다중 스케일 변형 어텐션의 메모리 요구량과 비정규적인 데이터 접근을 해결하기 위해 프루닝 기반 그리드 샘플링과 다중 스케일 병렬 처리를 제안하여 성능과 에너지 효율을 크게 향상시켰다.
摘要
이 논문은 다중 스케일 변형 어텐션(MSDeformAttn)의 성능 병목 현상을 분석하고, 이를 해결하기 위한 알고리즘-아키텍처 공동 최적화 기법인 DEFA를 제안한다.
알고리즘 수준에서, DEFA는 주파수 가중 프루닝(FWP)과 확률 인식 프루닝(PAP)을 통해 특징 맵 픽셀과 샘플링 포인트의 메모리 접근을 각각 43%와 84% 줄였다.
하드웨어 수준에서, DEFA는 다중 스케일 병렬 처리를 통해 그리드 샘플링 처리량을 3.06배 향상시켰다. 또한 세부적인 연산자 융합과 특징 맵 재사용을 통해 DRAM 및 SRAM 접근을 크게 줄였다.
종합적으로 DEFA는 대표적인 벤치마크에서 GPU 대비 10.1-31.9배 가속과 20.3-37.7배 에너지 효율 향상을 달성했다. 또한 관련 가속기 대비 2.2-3.7배 에너지 효율 개선을 보였다.
統計資料
다중 스케일 변형 어텐션은 Deformable DETR에서 최대 54.7%의 추론 지연 시간을 차지한다.
다중 스케일 그리드 샘플링은 MSDeformAttn 내 각 어텐션 레이어의 60% 이상을 차지한다.
DEFA는 특징 맵 픽셀과 샘플링 포인트를 각각 43%와 84% 감소시켰다.
DEFA는 다중 스케일 병렬 처리를 통해 그리드 샘플링 처리량을 3.06배 향상시켰다.
引述
"MSDeformAttn suffers from significant computation inefficiency on general-purpose platforms such as CPUs and GPUs."
"Existing attention accelerators cannot maintain the superiority of MSDeformAttn due to a lack of support for grid-sample."