본 연구 논문에서는 제한된 리소스를 가진 구형 하드웨어에서 대규모 언어 모델(LLM) 추론을 가능하게 하는 혁신적인 아키텍처인 M2Cache를 소개합니다.
LLM은 인상적인 성능을 보여주지만, 방대한 매개변수와 이에 따른 컴퓨팅 요구 사항으로 인해 최신 GPU 하드웨어에 대한 의존도가 높아지고 탄소 배출량이 증가합니다. 이 연구는 구형 GPU 서버를 활용하여 LLM 추론의 지속 가능성을 높이는 데 중점을 두고 있으며, 이는 탄소 배출량 감소와 LLM 기술에 대한 접근성 향상이라는 두 가지 이점을 제공합니다. 그러나 구형 하드웨어에서 LLM을 배포하는 데는 상당한 과제가 존재합니다. 가장 큰 제약은 제한된 고대역폭 메모리(HBM) 용량으로, LLM의 방대한 매개변수와 중간 활성화 데이터를 저장하기에 충분하지 않습니다.
M2Cache는 이러한 문제를 해결하기 위해 두 가지 주요 기술을 결합합니다.
이 기술은 LLM의 피드포워드 네트워크(FFN) 내에서 작동하며, 첫 번째 레이어의 각 행과 후속 레이어의 해당 열을 뉴런으로 취급합니다. 각 레이어에 특정된 예측 변수에 의해 식별된 활성 뉴런만 GPU 메모리로 선택적으로 전송되어 메모리 사용을 최적화합니다. 또한 활성 점수 기반 양자화를 통해 중요도가 낮은 뉴런을 더 적은 비트 수로 양자화하여 HBM을 절약합니다. 이러한 감소는 LLM 추론 중 탄소 배출량을 줄여 LLM 배포의 지속 가능성을 향상시킵니다.
M2Cache는 GPU HBM, DRAM 및 SSD라는 세 가지 유형의 메모리/스토리지에서 뉴런 데이터를 효율적으로 관리하도록 설계된 예측 기반 다단계 캐시 시스템을 도입했습니다. SSD는 모든 FFN 매개변수를 캐시하는 데 사용되어 가장 낮은 비용과 탄소 배출량으로 대용량 데이터를 저장할 수 있습니다. DRAM은 레이어 인식 FIFO 대기열을 유지 관리하여 SSD에서 여러 개의 사용될 FFN을 로드하고 SSD의 느린 액세스 속도를 관리하는 데 도움이 됩니다. GPU 메모리에서 우리는 각 LLM 레이어에 대한 뉴런 수준 관리를 설계하여 가장 자주 액세스하는 활성 뉴런을 유지하여 빠른 검색을 보장합니다.
실험 결과 M2Cache는 최첨단 오프로딩 프레임워크인 DeepSpeed Zero-Infinity와 비교하여 상당한 성능 향상을 보여줍니다. 예를 들어, LLaMA-7B의 경우 M2Cache는 추론 대기 시간을 최대 7배까지 단축합니다. 마찬가지로 LLaMA-13B의 경우 최대 14배의 추론 속도 향상을 달성합니다. 또한 M2Cache는 단일 GeForce RTX 3090에서 최대 0.3835 및 0.312 토큰/초의 속도 향상을 제공하여 LLaMA-70B 및 Falcon-40B를 활성화합니다. 탄소 배출량의 경우 M2Cache는 Zero-Infinity와 비교하여 최대 7배 감소했습니다.
M2Cache는 구형 하드웨어에서 지속 가능하고 비용 효율적인 LLM 추론을 위한 유망한 솔루션을 제공합니다. 동적 Sparse 혼합 정밀도 추론과 예측 기반 다단계 캐시를 결합하여 메모리 효율성과 탄소 배출량을 모두 해결합니다. 광범위한 실험 결과는 성능, 확장성 및 지속 가능성 측면에서 M2Cache의 효율성을 입증합니다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Jie Peng, Zh... às arxiv.org 10-22-2024
https://arxiv.org/pdf/2410.14740.pdfPerguntas Mais Profundas