대규모 언어 모델(LLM) 추론에서 텐서 병렬 처리 시 발생하는 통신 병목 현상을 완화하기 위해 활성화 압축 기술을 활용하면 지연 시간을 최대 2배까지 단축하면서도 모델 성능 저하를 최소화할 수 있다.
Pie는 CPU 메모리 풀링 및 적응형 확장 기술을 활용하여 LLM 추론의 메모리 병목 현상을 해결하고, GPU 메모리 사용량을 줄이면서도 처리량과 지연 시간을 향상시키는 프레임워크입니다.
AcceLLM은 중복 KV 캐시를 활용하여 LLM 추론의 지연 시간을 줄이고 하드웨어 리소스 활용을 향상시키는 새로운 방법입니다.