이 논문은 RoPE(Rotary Position Embedding)를 사용하는 변압기 모델의 첫 번째 레이어를 사전에 계산하여 추론 속도와 비용을 향상시키는 기술을 소개한다.
병렬 구조의 변압기 모델(GPT-J, Pythia, PaLM 등)의 경우, 입력 임베딩에 의존하는 Q, K, V, FFN의 출력을 사전에 계산하여 메모리에 저장할 수 있다. 이를 통해 토큰당 계산 복잡도를 낮추고 메모리 읽기 횟수를 줄일 수 있다.
직렬 구조의 변압기 모델(LLaMA 2, Mistral, Mixtral 등)의 경우, Q, K, V는 사전에 계산할 수 있지만 FFN은 그렇지 않아 상대적으로 작은 이점을 얻을 수 있다.
사전 계산으로 인한 메모리 사용량 증가는 모델 크기와 구조에 따라 다르지만, Mistral-7B의 경우 2%만 증가한다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Nils Graef alle arxiv.org 03-13-2024
https://arxiv.org/pdf/2402.13388.pdfDomande più approfondite