核心概念
다양한 자원 요구사항을 가진 HPC 워크로드의 증가로 인해 기존 CPU 중심의 클러스터 스케줄러로는 한계가 있다. 이에 다중 자원 스케줄링을 위한 지능형 스케줄링 에이전트 MRSch를 제안하며, 이는 직접 미래 예측(DFP) 기반의 다목적 강화 학습 알고리즘을 활용하여 동적으로 자원 우선순위를 조정하고 장기적인 스케줄링 성능을 향상시킨다.
要約
본 연구는 HPC 환경에서의 다중 자원 스케줄링 문제를 다룬다. 기존 CPU 중심의 스케줄링 방식으로는 다양한 자원 요구사항을 가진 새로운 워크로드를 효과적으로 처리하기 어렵다. 이에 저자들은 지능형 스케줄링 에이전트 MRSch를 제안한다.
MRSch는 다목적 강화 학습 알고리즘인 직접 미래 예측(DFP)을 활용한다. DFP는 각 자원의 상대적 중요도를 동적으로 조정할 수 있어 다중 자원 스케줄링에 적합하다. 하지만 DFP를 HPC 환경에 적용하기 위해서는 몇 가지 기술적 과제를 해결해야 한다.
첫째, 기존 DFP의 이미지 기반 상태 표현은 HPC 작업의 다양한 실행 시간을 효과적으로 다루기 어렵다. MRSch는 벡터 기반 인코딩 메커니즘을 사용한다. 둘째, CNN 대신 MLP를 사용하여 작업 및 시스템 상태의 독립적인 특성을 더 잘 포착한다. 셋째, 동적 자원 우선순위 조정을 위해 간단하면서도 효과적인 기술을 개발했다. 넷째, HPC 도메인의 고유한 특성인 예약 및 백필링 기법을 MRSch에 통합했다. 마지막으로 빠른 수렴을 위한 효율적인 학습 전략을 활용했다.
실험 결과, MRSch는 기존 휴리스틱, 최적화, 단일 목적 강화 학습 방식 대비 최대 48%의 성능 향상을 보였다. 이는 MRSch가 동적 자원 우선순위 조정을 통해 불균형한 자원 경합 상황에서도 우수한 성능을 발휘할 수 있음을 보여준다.
統計
작업 i의 사용자 제공 예상 실행 시간 ti
작업 i의 자원 j 요청 비율 Pij (시스템 자원 j 용량 대비)