핵심 개념
새로운 주의 메커니즘은 효율성과 학습 능력을 향상시키며 Transformer 모델의 성능을 향상시킵니다.
통계
Optimised Attention은 표준 주의와 유사하게 수행되지만 매개변수가 3/4이고 헤드 당 하나의 행렬 곱셈이 적습니다.
Efficient Attention은 표준 주의와 유사하게 수행되지만 매개변수가 1/2이고 헤드 당 두 개의 행렬 곱셈이 적습니다.
Super Attention은 표준 주의를 크게 능가하며 매개변수와 행렬 곱셈이 적습니다.
인용구
"The bigger the better" has been the prevailing maxim in AI in the last few years.
"Optimised Attention omits the W V kernel, while preserving the learning capabilities of standard attention."
"Efficient Attention reduces the attention layer’s size by 1/2 and its computational cost by h matrix multiplication."