Kernekoncepter
SplitLLM이라는 새로운 협업 추론 아키텍처를 통해 서버와 클라이언트 장치 간에 LLM 추론 작업을 효율적으로 분산하여 서버 처리량을 개선하고 서비스 수준 계약(SLA)을 준수합니다.
Resumé
SplitLLM: 모델 배치 및 처리량 최적화를 위한 LLM의 협업 추론
이 연구 논문에서는 서버와 클라이언트 장치 간의 협업 추론 아키텍처인 SplitLLM을 제안하여 LLM 추론의 처리량 제한 문제를 해결합니다. 저자는 LLM의 거대한 매개변수 크기와 Transformer 아키텍처의 자기 주의 메커니즘으로 인한 높은 계산 및 메모리 복잡성으로 인해 LLM 추론이 리소스를 많이 사용하는 작업임을 강조합니다. 특히 긴 시퀀스의 경우 처리량이 제한됩니다.
SplitLLM은 서버와 클라이언트 모두의 계산 및 통신 비용을 고려하여 서버 처리량을 높이는 동시에 SLA를 준수하도록 계산을 최적으로 할당합니다. 동적 프로그래밍 기반 알고리즘을 사용하여 서버와 클라이언트 장치 간에 계산을 동적으로 분할하여 서버 워크로드를 약 1/3으로 줄이고 Greedy 방법보다 19% 향상된 성능을 달성합니다.
주요 연구 내용:
- LLM 추론의 리소스 사용량 증가 추세와 이로 인한 서버 처리량 제한 문제를 강조합니다.
- 서버와 클라이언트 장치 간에 LLM 추론 작업을 효율적으로 분산하는 협업 추론 아키텍처인 SplitLLM을 제안합니다.
- 계산 및 통신 비용을 고려하여 SLA를 준수하면서 서버 처리량을 극대화하는 동적 프로그래밍 기반 알고리즘을 개발했습니다.
- 다양한 LLM 추론 요청이 있는 환경에서 SplitLLM이 서버 처리량을 효과적으로 개선함을 실험적으로 입증했습니다.
연구의 중요성:
- LLM의 인기가 높아지고 엣지 컴퓨팅 환경에서의 배포 요구가 증가함에 따라 SplitLLM은 서버 리소스를 효율적으로 관리하고 처리량 병목 현상을 해결하는 데 중요한 역할을 합니다.
- SplitLLM은 LLM 기반 서비스의 응답 시간을 단축하고 사용자 경험을 향상시키는 데 기여할 수 있습니다.
향후 연구 방향:
- 다양한 유형의 LLM 및 엣지 장치로 SplitLLM의 적용 범위를 확장합니다.
- SplitLLM과 다른 LLM 경량화 기술(예: 지식 증류, 모델 가지치기)을 결합하여 성능을 더욱 향상시킵니다.
- SplitLLM을 실제 엣지 컴퓨팅 환경에 배포하여 실용성과 효율성을 검증합니다.
Statistik
서버 워크로드를 약 1/3으로 감소
Greedy 방법보다 19% 향상