핵심 개념
PipeLLM은 예측적 파이프라인 암호화를 통해 GPU 기반 기밀 컴퓨팅 환경에서 대규모 언어 모델 (LLM) 서비스의 성능 저하 문제를 해결하는 런타임 시스템입니다.
연구 목적
본 연구는 NVIDIA H100 GPU와 같은 GPU 기반 기밀 컴퓨팅 환경에서 대규모 언어 모델 (LLM) 서비스의 성능 저하 문제를 해결하고자 합니다. 특히, 데이터 암호화로 인한 성능 오버헤드를 줄이면서도 높은 수준의 보안을 유지하는 데 중점을 둡니다.
방법론
본 연구에서는 PipeLLM이라는 사용자 투명 런타임 시스템을 제안합니다. PipeLLM은 CPU 명령어 파이프라이닝에서 영감을 받아 암호화 작업을 GPU 계산과 중첩하여 암호화로 인한 지연 시간 증가를 효과적으로 숨깁니다.
PipeLLM의 주요 기술
예측적 파이프라인 암호화: GPU에서 필요로 하는 데이터를 예측하여 미리 암호화함으로써 암호화 작업을 GPU 계산과 중첩합니다.
효율적인 검증 체계: 미리 암호화된 데이터의 정확성을 검증하여 예측 오류를 최소화합니다.
요청 재정렬 및 NOP 패딩: 예측 오류 발생 시 전체 파이프라인을 폐기하지 않고 IV 불일치를 처리합니다.
비동기 복호화: GPU에서 CPU로 데이터 전송 시 비동기적으로 복호화를 수행하여 데이터 전송 속도를 높입니다.
주요 결과
NVIDIA H100-SXM GPU를 사용한 실험 결과, PipeLLM은 다양한 LLM 크기(130억~1,750억 개의 매개변수)에서 기밀 컴퓨팅과 관련된 오버헤드를 크게 줄였습니다. 특히, 처리량에서 최대 88.2%에서 19.6% 미만으로 감소했습니다.
결론
PipeLLM은 GPU 기반 기밀 컴퓨팅 환경에서 LLM 서비스 및 미세 조정과 관련된 성능 오버헤드를 효과적으로 줄이는 실용적인 솔루션입니다. PipeLLM은 예측적 파이프라인 암호화 및 오류 처리 메커니즘을 통해 높은 성능을 달성하면서도 기존 LLM 시스템 또는 하드웨어를 변경할 필요 없이 동일한 수준의 보안을 유지합니다.
기대 효과
PipeLLM은 기밀성이 중요한 LLM 애플리케이션, 특히 의료, 금융 및 법률 분야에서 클라우드 기반 LLM 서비스를 안전하게 사용할 수 있도록 지원합니다. 또한, LLM의 성능 저하 없이 높은 수준의 보안을 제공함으로써 기밀 컴퓨팅 기술의 광범위한 채택을 촉진할 것으로 기대됩니다.
연구의 한계점 및 향후 연구 방향
본 연구에서는 제한된 수의 LLM 시스템과 워크로드를 사용하여 PipeLLM을 평가했습니다. 향후 연구에서는 다양한 LLM 시스템, 워크로드 및 하드웨어 플랫폼에서 PipeLLM의 성능을 평가할 필요가 있습니다. 또한, 머신 러닝 모델을 사용하여 예측 정확도를 더욱 향상시키고 더욱 다양한 예측 패턴을 지원하는 연구도 고려해 볼 수 있습니다.
통계
NVIDIA H100 GPU에서 OPT-30B 모델을 사용하는 경우 기밀 컴퓨팅으로 인해 처리량이 최대 52.8% 감소합니다.
NVIDIA H100 GPU에서 OPT-66B 모델을 사용하는 경우 기밀 컴퓨팅으로 인해 처리량이 최대 88.2% 감소합니다.
PipeLLM은 다양한 LLM 크기(130억~1,750억 개의 매개변수)에서 기밀 컴퓨팅과 관련된 오버헤드를 처리량 기준 최대 88.2%에서 19.6% 미만으로 감소시킵니다.