Core Concepts
Softmax 연산을 제거하고 ℓ1-norm을 사용하여 주의 집중 메커니즘을 단순화하는 SimA 기법을 제안한다. SimA는 정확도 저하 없이 계산 효율성을 높일 수 있다.
Abstract
이 논문은 비전 트랜스포머의 주의 집중 메커니즘을 단순화하는 SimA 기법을 제안한다.
주요 내용은 다음과 같다:
기존 주의 집중 메커니즘은 Softmax 연산을 사용하여 토큰 간 경쟁을 유도하는데, 이 연산이 계산 비용이 높다.
SimA는 Softmax 대신 ℓ1-norm을 사용하여 토큰 간 경쟁을 유도한다. 이를 통해 Softmax 연산을 제거할 수 있다.
SimA는 행렬 곱셈 순서를 동적으로 변경하여 토큰 수 또는 채널 수에 선형적으로 계산 복잡도를 줄일 수 있다.
SimA를 DeiT, XCiT, CvT 등 SOTA 비전 트랜스포머 모델에 적용한 결과, 정확도 저하 없이 계산 효율성을 높일 수 있었다.
단일 헤드 주의 집중 및 ReLU 활성화 함수 사용 등 SimA를 더 단순화할 수 있었고, 이에 따른 성능 저하도 크지 않았다.
특히 엣지 디바이스에서 SimA의 실행 시간이 크게 단축되었는데, 이는 Softmax 연산 복잡도 감소 때문으로 보인다.
Stats
Softmax 연산은 QKV 연산보다 더 많은 시간을 소요한다(453 μs vs 333 μs).
Softmax 연산의 FLOPS는 QKV 연산보다 훨씬 낮다(0.2 GFLOPS vs 25.7 GFLOPS).
Quotes
"Softmax consumes more time compared to any other components including query (Q), key (K), value (V ) operation (Softmax: 453 μs , QKV projections: 333 μs, QKT : 189 μs)."
"This is remarkable since the FLOPS of Softmax is much lower than those other components (Softmax: 0.2 GFLOPS, QKV projections: 25.7 GFLOPS, QKT : 4.3 GFPLOS)."