이 논문은 다중 스케일 변형 어텐션(MSDeformAttn)의 성능 병목 현상을 분석하고, 이를 해결하기 위한 알고리즘-아키텍처 공동 최적화 기법인 DEFA를 제안한다.
알고리즘 수준에서, DEFA는 주파수 가중 프루닝(FWP)과 확률 인식 프루닝(PAP)을 통해 특징 맵 픽셀과 샘플링 포인트의 메모리 접근을 각각 43%와 84% 줄였다.
하드웨어 수준에서, DEFA는 다중 스케일 병렬 처리를 통해 그리드 샘플링 처리량을 3.06배 향상시켰다. 또한 세부적인 연산자 융합과 특징 맵 재사용을 통해 DRAM 및 SRAM 접근을 크게 줄였다.
종합적으로 DEFA는 대표적인 벤치마크에서 GPU 대비 10.1-31.9배 가속과 20.3-37.7배 에너지 효율 향상을 달성했다. 또한 관련 가속기 대비 2.2-3.7배 에너지 효율 개선을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yansong Xu,D... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10913.pdfDomande più approfondite