대규모 언어 모델(LLM) 추론에서 텐서 병렬 처리 시 발생하는 통신 병목 현상을 완화하기 위해 활성화 압축 기술을 활용하면 지연 시간을 최대 2배까지 단축하면서도 모델 성능 저하를 최소화할 수 있다.


coremsg

텐서-병렬-llm-추론을-위한-통신-압축-지연-시간-단축-및-모델-성능-유지


텐서 병렬 LLM 추론을 위한 통신 압축: 지연 시간 단축 및 모델 성능 유지



Pie는 CPU 메모리 풀링 및 적응형 확장 기술을 활용하여 LLM 추론의 메모리 병목 현상을 해결하고, GPU 메모리 사용량을 줄이면서도 처리량과 지연 시간을 향상시키는 프레임워크입니다.



CPU 메모리 풀링을 통한 LLM 추론 성능 향상: Pie 프레임워크



AcceLLM은 중복 KV 캐시를 활용하여 LLM 추론의 지연 시간을 줄이고 하드웨어 리소스 활용을 향상시키는 새로운 방법입니다.



AcceLLM: 로드 밸런싱 및 데이터 지역성을 위한 중복성을 사용하여 LLM 추론 가속화