SparQ Attention은 메모리 대역폭을 효율적으로 활용하여 LLM 추론 처리량을 높이는 기술이다. 사전 학습된 모델의 변경 없이 추론 단계에서 직접 적용할 수 있다.
동적 메모리 압축(DMC)은 대규모 언어 모델의 키-값 캐시를 온라인으로 압축하여 추론 속도를 크게 향상시킬 수 있다.
본 연구는 대규모 언어 모델의 추론 속도를 향상시키기 위해 적응형 N-gram 병렬 디코딩(ANPD) 기법을 제안한다. ANPD는 N-gram 모듈을 활용하여 빠른 초안 생성 단계와 원본 언어 모델을 통한 검증 단계로 구성되며, 이를 통해 추론 속도를 향상시키면서도 원본 모델의 출력을 유지한다.
대규모 언어 모델의 배포와 활용을 위해서는 모델 크기, 주의 연산, 자기회귀적 디코딩 등의 요인으로 인한 비효율성을 해결해야 한다.
본 논문은 대규모 언어 모델의 추론 속도를 높이기 위한 종합적인 솔루션을 제안한다. 이를 위해 모델 학습 시 레이어 드롭아웃과 조기 종료 손실 함수를 사용하여 모델이 초기 레이어에서 정확한 예측을 할 수 있도록 하며, 추론 시 조기 종료와 자기 투기적 디코딩 기법을 통해 계산 비용을 줄인다.
Kangaroo는 대규모 언어 모델의 추론 속도를 높이면서도 일관된 샘플링 분포를 유지하는 새로운 자기 투기적 디코딩 프레임워크이다.