이 연구는 심층 강화 학습(DRL) 기반 클러스터 스케줄링의 해석 가능성 문제를 해결하기 위해 IRL(Interpretable Reinforcement Learning)이라는 프레임워크를 제안한다. 핵심 아이디어는 모방 학습을 활용하여 심층 신경망(DNN) 기반 DRL 정책을 의사결정 트리로 해석하는 것이다. 의사결정 트리 모델은 인간이 이해하기 쉬운 비매개변수 모델이다. 효과적이고 효율적인 의사결정 트리를 추출하기 위해 IRL은 Dataset Aggregation(DAgger) 알고리즘을 통합하고 중요 상태 개념을 도입하여 도출된 의사결정 트리를 가지치기한다. 추적 기반 실험을 통해 IRL이 블랙박스 DNN 정책을 해석 가능한 규칙 기반 의사결정 트리로 변환할 수 있으며, 스케줄링 성능도 유지할 수 있음을 입증한다. 또한 IRL은 DRL 스케줄링의 보상 설정에 기여할 수 있다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询