이 논문은 ChunkAttention이라는 새로운 자기 주의 모듈을 제안한다. ChunkAttention은 접두사 인식 KV 캐시(PAKV)와 두 단계 분할(TPP) 기법을 통해 대규모 언어 모델의 자기 주의 메커니즘을 최적화한다.
PAKV는 KV 캐시를 접두사 트리 구조로 구성하여 다중 요청 간 공유되는 시스템 프롬프트 접두사를 동적으로 탐지하고 제거한다. 이를 통해 메모리 사용량을 크게 줄일 수 있다.
TPP는 PAKV 기반의 KV 캐시에 최적화된 자기 주의 커널을 구현한다. 청크 단위와 시퀀스 단위로 병렬화를 수행하여 데이터 지역성을 높이고 메모리 연산을 최소화한다.
실험 결과, ChunkAttention은 기존 최적화 기법 대비 3.2-4.8배 빠른 자기 주의 커널 성능을 보였으며, 전체 추론 속도에서도 1.6-2.3배 향상된 처리량을 달성했다. 또한 KV 캐시 메모리 사용량을 70-90% 줄일 수 있었다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Lu Ye,Ze Tao... ב- arxiv.org 03-25-2024
https://arxiv.org/pdf/2402.15220.pdfשאלות מעמיקות