Core Concepts
프록시 모델 기반의 출력 토큰 길이 예측을 통해 비결정적 실행 시간을 해결하고 대화형 LLM 서비스의 효율성을 높일 수 있다.
Abstract
대화형 AI 애플리케이션의 새로운 물결을 이끌고 있는 대규모 언어 모델(LLM)은 자동회귀 생성 모델의 특성으로 인해 실행 시간의 예측이 어렵다. 기존 DNN 모델 서비스 시스템은 FCFS 스케줄링을 사용하지만, 이는 대기열 선두 차단 문제로 이어질 수 있다.
본 연구에서는 프록시 모델을 사용하여 LLM 출력 토큰 길이를 예측하고, 이를 바탕으로 추측 최단 작업 우선(SSJF) 스케줄러를 제안한다. SSJF는 기존 메모리 관리 또는 배치 전략을 변경할 필요 없이 적용할 수 있다. 실제 데이터셋과 프로덕션 워크로드 추적을 통한 평가 결과, SSJF는 FCFS 대비 평균 작업 완료 시간을 30.5-39.6% 단축하고 처리량을 2.2-3.6배 향상시킬 수 있다.
Stats
다양한 LLM 모델의 출력 토큰 길이는 모델 간 큰 차이를 보인다. 예를 들어 p95/p50 비율이 1.7(claude-1)에서 20.5(llama-13b)까지 다양하다.
출력 토큰 길이(N)는 모델 실행 시간(T)에 지배적인 영향을 미치며, T = C + K*N의 관계를 가진다. 여기서 K는 토큰 생성 지연이고 C는 시스템 오버헤드이다.
Quotes
"LLM 서비스 시스템은 대화형 AI 애플리케이션의 원활한 사용자 경험을 위해 낮은 작업 완료 시간과 높은 처리량을 제공해야 한다."
"자동회귀 생성 모델의 비결정적 실행 시간은 기존 DNN 서비스 시스템의 FCFS 스케줄링에 문제를 야기한다."