이 연구는 주의력 계산의 이론적 분석을 통해 주의력이 자연스럽게 희소해짐을 보여준다. 주요 내용은 다음과 같다:
입력이 가우시안 분포를 따를 때, 주의력 행렬 A의 각 행 A_i는 (ϵ, k)-희소성을 가질 확률이 0.9999 이상임을 이론적으로 증명한다.
주의력 행렬의 희소성은 주의력 가중치의 크기 R과 양의 상관관계가 있음을 밝힌다. 이를 통해 언어 모델의 어떤 층에 주의력 가속 알고리즘을 적용하는 것이 효과적인지 알 수 있다.
희소 주의력 계산의 이론적 오차 상한을 제시하고, 이를 바탕으로 기존 HyperAttention 알고리즘을 개선한 Sparse HyperAttention 알고리즘을 제안한다. 이 알고리즘은 이론적 오차 보장과 함께 효율적인 계산 복잡도를 달성한다.
실험을 통해 Sparse HyperAttention이 HyperAttention 대비 더 정확한 주의력 근사를 제공하고, 언어 모델의 장문 처리 성능에서도 개선된 결과를 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yichuan Deng... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02690.pdfYêu cầu sâu hơn