핵심 개념
심층 신경망 기반 강화 학습 스케줄링 정책을 해석 가능한 의사결정 트리로 변환하여 실용적인 배포를 가능하게 함
초록
이 연구는 심층 강화 학습(DRL) 기반 클러스터 스케줄링의 해석 가능성 문제를 해결하기 위해 IRL(Interpretable Reinforcement Learning)이라는 프레임워크를 제안한다. 핵심 아이디어는 모방 학습을 활용하여 심층 신경망(DNN) 기반 DRL 정책을 의사결정 트리로 해석하는 것이다. 의사결정 트리 모델은 인간이 이해하기 쉬운 비매개변수 모델이다. 효과적이고 효율적인 의사결정 트리를 추출하기 위해 IRL은 Dataset Aggregation(DAgger) 알고리즘을 통합하고 중요 상태 개념을 도입하여 도출된 의사결정 트리를 가지치기한다. 추적 기반 실험을 통해 IRL이 블랙박스 DNN 정책을 해석 가능한 규칙 기반 의사결정 트리로 변환할 수 있으며, 스케줄링 성능도 유지할 수 있음을 입증한다. 또한 IRL은 DRL 스케줄링의 보상 설정에 기여할 수 있다.
통계
작업 대기 시간이 34,986초를 초과하면 의사결정 트리가 작업 선택을 달리한다.
작업 대기 시간이 13,701초를 초과하면 의사결정 트리가 작업 선택을 달리한다.
작업 대기 시간이 72,182초를 초과하면 의사결정 트리가 작업 선택을 달리한다.
작업 대기 시간이 4,977초를 초과하면 의사결정 트리가 작업 선택을 달리한다.
작업 요청 시간이 10,500초를 초과하면 의사결정 트리가 작업 선택을 달리한다.
인용구
"심층 신경망 기반 강화 학습 스케줄링의 우수한 성능은 심층 신경망(DNN)에서 비롯되지만, DNN은 시스템 관리자에게 블랙박스로 보여 실제 배포에 어려움이 있다."
"의사결정 트리는 비매개변수 모델이며 인간이 이해하기 쉽다."