이 연구는 주의력 계산의 이론적 분석을 통해 주의력이 자연스럽게 희소해짐을 보여준다. 주요 내용은 다음과 같다:
입력이 가우시안 분포를 따를 때, 주의력 행렬 A의 각 행 A_i는 (ϵ, k)-희소성을 가질 확률이 0.9999 이상임을 이론적으로 증명한다.
주의력 행렬의 희소성은 주의력 가중치의 크기 R과 양의 상관관계가 있음을 밝힌다. 이를 통해 언어 모델의 어떤 층에 주의력 가속 알고리즘을 적용하는 것이 효과적인지 알 수 있다.
희소 주의력 계산의 이론적 오차 상한을 제시하고, 이를 바탕으로 기존 HyperAttention 알고리즘을 개선한 Sparse HyperAttention 알고리즘을 제안한다. 이 알고리즘은 이론적 오차 보장과 함께 효율적인 계산 복잡도를 달성한다.
실험을 통해 Sparse HyperAttention이 HyperAttention 대비 더 정확한 주의력 근사를 제공하고, 언어 모델의 장문 처리 성능에서도 개선된 결과를 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問