Konsep Inti
본 연구는 Softmax 없는 효율적인 비전 트랜스포머의 양자화 및 가속화를 위한 Trio-ViT 프레임워크를 제안한다. 알고리즘 수준에서는 Softmax 없는 효율적인 비전 트랜스포머의 고유한 활성화 분포를 고려한 맞춤형 사후 훈련 양자화 기법을 개발하였다. 하드웨어 수준에서는 컨볼루션-트랜스포머 하이브리드 아키텍처를 효과적으로 지원하는 전용 가속기를 설계하였다.
Abstrak
본 연구는 Softmax 없는 효율적인 비전 트랜스포머의 양자화 및 가속화를 위한 Trio-ViT 프레임워크를 제안한다.
알고리즘 수준에서는 다음과 같은 접근법을 취한다:
- Softmax 없는 효율적인 비전 트랜스포머의 고유한 활성화 분포 분석을 통해 양자화 과정에서의 주요 과제를 파악한다.
- 채널 단위 마이그레이션, 필터 단위 이동, log2 양자화 등의 새로운 전략을 포함하는 맞춤형 사후 훈련 양자화 엔진을 개발하여 양자화 정확도를 높인다.
하드웨어 수준에서는 다음과 같은 설계를 제안한다:
- 컨볼루션-트랜스포머 하이브리드 아키텍처를 효과적으로 지원하기 위해 다양한 연산 유형을 처리할 수 있는 하이브리드 가속기 구조를 제안한다.
- 연산 간 파이프라인 처리를 통해 하드웨어 활용도와 처리량을 높인다.
이를 통해 기존 ViT 가속기 대비 최대 7.2배 및 14.6배의 FPS 향상과 5.9배 및 2.0배의 DSP 효율 향상을 달성할 수 있었다.
Statistik
효율적인 ViT-B1 모델에서 가중치를 8비트로 양자화하고 활성화를 다양한 비트로 양자화했을 때, 최대 0.01% 정확도 향상 및 4.30% 정확도 하락을 보였다.
효율적인 ViT-B1 모델에서 가중치와 활성화를 모두 8비트로 양자화했을 때, 최대 0.26% 정확도 하락을 보였다.
Kutipan
"Softmax 없는 선형 주의력은 양자화 정확도 향상과 하드웨어 효율 향상을 위한 기회를 제공한다."
"컨볼루션-트랜스포머 하이브리드 아키텍처는 전용 가속기 설계를 필요로 한다."