แนวคิดหลัก
본 연구는 Softmax 없는 효율적인 비전 트랜스포머의 양자화 및 가속화를 위한 Trio-ViT 프레임워크를 제안한다. 알고리즘 수준에서는 Softmax 없는 효율적인 비전 트랜스포머의 고유한 활성화 분포를 고려한 맞춤형 사후 훈련 양자화 기법을 개발하였다. 하드웨어 수준에서는 컨볼루션-트랜스포머 하이브리드 아키텍처를 효과적으로 지원하는 전용 가속기를 설계하였다.
บทคัดย่อ
본 연구는 Softmax 없는 효율적인 비전 트랜스포머의 양자화 및 가속화를 위한 Trio-ViT 프레임워크를 제안한다.
알고리즘 수준에서는 다음과 같은 접근법을 취한다:
Softmax 없는 효율적인 비전 트랜스포머의 고유한 활성화 분포 분석을 통해 양자화 과정에서의 주요 과제를 파악한다.
채널 단위 마이그레이션, 필터 단위 이동, log2 양자화 등의 새로운 전략을 포함하는 맞춤형 사후 훈련 양자화 엔진을 개발하여 양자화 정확도를 높인다.
하드웨어 수준에서는 다음과 같은 설계를 제안한다:
컨볼루션-트랜스포머 하이브리드 아키텍처를 효과적으로 지원하기 위해 다양한 연산 유형을 처리할 수 있는 하이브리드 가속기 구조를 제안한다.
연산 간 파이프라인 처리를 통해 하드웨어 활용도와 처리량을 높인다.
이를 통해 기존 ViT 가속기 대비 최대 7.2배 및 14.6배의 FPS 향상과 5.9배 및 2.0배의 DSP 효율 향상을 달성할 수 있었다.
สถิติ
효율적인 ViT-B1 모델에서 가중치를 8비트로 양자화하고 활성화를 다양한 비트로 양자화했을 때, 최대 0.01% 정확도 향상 및 4.30% 정확도 하락을 보였다.
효율적인 ViT-B1 모델에서 가중치와 활성화를 모두 8비트로 양자화했을 때, 최대 0.26% 정확도 하락을 보였다.
คำพูด
"Softmax 없는 선형 주의력은 양자화 정확도 향상과 하드웨어 효율 향상을 위한 기회를 제공한다."
"컨볼루션-트랜스포머 하이브리드 아키텍처는 전용 가속기 설계를 필요로 한다."