Core Concepts
CATS는 대규모 언어 모델의 MLP 블록에서 문맥 인식 기반 활성화 함수를 사용하여 추론 비용을 크게 줄일 수 있다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 추론 비용을 줄이기 위한 새로운 프레임워크인 CATS(Contextually Aware Thresholding for Sparsity)를 소개한다.
CATS의 핵심은 새로운 비선형 활성화 함수로, 이를 통해 LLM의 MLP 블록에서 문맥 인식 기반 스파스성을 유도할 수 있다.
CATS는 다양한 기반 모델(Mistral-7B, Llama2-7B)에 적용할 수 있으며, 미세 조정 없이도 기반 모델과 유사한 성능을 보인다.
미세 조정 시에는 기존 기법보다 빠른 수렴 속도와 우수한 성능을 보인다.
또한 CATS의 GPU 커널 구현을 통해 토큰 생성 시 약 15%의 추론 지연 시간 단축을 달성했다.
Stats
기반 모델 대비 CATS-50%의 성능 저하는 0.5% 미만이다.
CATS-50%, CATS-70%, CATS-90%는 동일한 미세 조정 단계에서 ReLUfication보다 우수한 성능을 보인다.
CATS-50%는 미세 조정 없이도 기반 모델과 유사한 성능을 달성한다.
Quotes
"CATS는 상대적으로 간단하고 구현하기 쉬우며 매우 효과적이다."
"CATS-기반 모델은 미세 조정 시 더 빠른 수렴 속도와 더 나은 성능을 보인다."
"CATS의 GPU 커널 구현은 Llama-7B와 Mistral-7B에서 토큰 생성 시 약 15%의 추론 지연 시간 단축을 달성했다."