Core Concepts
소프트웨어 기반 에너지 최적화와 하드웨어 지원이 결합된 크로스 레이어 접근법을 통해 기계 학습 시스템의 에너지 소비를 줄일 수 있다.
Abstract
이 논문은 기계 학습(ML) 및 생성 AI 워크로드의 엄청난 에너지 소비 문제를 다룹니다. 저자들은 최근 연구인 Zeus와 Perseus를 통해 소프트웨어가 에너지 최적화에 중요한 역할을 한다는 것을 보여줍니다.
균형 잡힌 GPU 부하: Zeus는 GPU 전력 제한 조정을 통해 시간-에너지 Pareto 최적화 곡선을 생성하여 학습 및 추론 서비스의 에너지 소비를 줄일 수 있습니다.
불균형 GPU 부하: Perseus는 파이프라인 스테이지 간 불균형과 데이터 병렬 파이프라인 간 지연 문제를 해결하여 대규모 모델 학습의 에너지 소비를 최대 30% 줄일 수 있습니다.
반복적인 학습 작업: Zeus는 배치 크기 최적화를 통해 반복적인 학습 작업의 에너지 소비를 최대 65% 줄일 수 있습니다.
저자들은 소프트웨어와 하드웨어가 상호 보완적으로 작용하는 크로스 레이어 접근법을 제안합니다. 소프트웨어는 하드웨어 특성을 잘 활용하고 추상화할 수 있으며, 하드웨어는 소프트웨어의 요구사항을 잘 지원할 수 있어야 합니다.
Stats
200억 개 매개변수의 대규모 언어 모델(LLM) 학습에 11.9 GWh의 전력이 소요됨. 이는 1년 동안 평균 미국 가구 1,000개 이상의 전력을 공급할 수 있는 양임.
단일 모델이 수백만 개의 요청을 처리할 수 있으므로 추론 단계에서도 많은 에너지가 소비됨.
Quotes
"소프트웨어 기반 에너지 최적화는 하드웨어 발전과 직교하는 방식으로 상당한 양의 에너지를 절감할 수 있다."
"소프트웨어와 하드웨어 개발이 공생하여 크로스 레이어 에너지 최적화를 실현할 수 있다."