Core Concepts
비전 트랜스포머 모델은 실시간 애플리케이션에 배포되며, 매 추론마다 사용 가능한 자원이 변동되므로 정확도와 효율성을 동적으로 조절할 수 있는 기능이 필요하다. 이를 위해 비전 트랜스포머의 가지치기 및 스케일링에 대한 복원력을 활용하여 다양한 실행 경로를 생성할 수 있다.
Abstract
비전 트랜스포머 모델은 컴퓨터 비전 작업에서 최신 기술을 사용하며, 실시간 애플리케이션에 배포되고 있다. 이러한 경우 매 추론마다 사용 가능한 자원이 변동되므로, 정확도와 효율성을 동적으로 조절할 수 있는 기능이 필요하다.
이를 위해 저자들은 비전 트랜스포머의 가지치기 및 스케일링에 대한 복원력을 활용하여 다양한 실행 경로를 생성하였다.
분석 결과, 대부분의 부동 소수점 연산(FLOPs)이 주목 메커니즘이 아닌 합성곱 연산에서 발생하는 것으로 나타났다. 이는 비전 트랜스포머 모델이 정확도 향상을 위해 합성곱 연산을 통합하고 있기 때문이다. 또한 FLOPs 분포가 GPU 성능을 잘 예측하지 못하는데, GPU가 합성곱 연산에 최적화되어 있기 때문이다.
저자들은 이러한 통찰을 바탕으로 CNN 가속기와 다양한 실행 경로를 활용하여 효율적이고 동적인 비전 트랜스포머 추론을 가능하게 하였다. 분석 결과, SegFormer B2 모델에서 28%의 에너지를 절감하면서 1.4%의 정확도 하락을 보였고, ResNet-50 모델에서는 53%의 에너지를 절감하면서 3.3%의 정확도 하락을 보였다.
Stats
합성곱 연산이 SegFormer ADE B2 모델의 68%, Swin Tiny 모델의 89%의 FLOPs를 차지한다.
SegFormer ADE B2 모델에서 Conv2DFuse 층 하나가 전체 FLOPs의 62%를 차지한다.
Swin Tiny 모델에서 fpn bottleneck Conv2D 층 하나가 전체 FLOPs의 65%를 차지한다.
Quotes
"대부분의 FLOPs가 주목 메커니즘이 아닌 합성곱 연산에서 발생한다."
"FLOPs 분포가 GPU 성능을 잘 예측하지 못한다."