Core Concepts
차별화 가능한 의사 결정 트리를 이용하여 표준 강화 학습 기반 제어기의 정책을 모방하여 데이터 기반이며 쉽게 설명 가능한 제어 정책을 얻는다.
Abstract
이 논문은 에너지 관리 시스템에서 강화 학습 기반 제어기의 설명 가능성을 높이기 위한 새로운 방법을 제안한다. 기존의 강화 학습 기반 제어기는 성능이 우수하지만 설명하기 어려운 문제가 있다. 이를 해결하기 위해 저자들은 차별화 가능한 의사 결정 트리와 정책 증류 기법을 사용한다.
먼저 표준 강화 학습 기반 제어기를 학습한다. 그 다음 이 제어기의 정책을 차별화 가능한 의사 결정 트리로 증류한다. 이를 통해 데이터 기반이며 쉽게 설명 가능한 제어 정책을 얻을 수 있다.
저자들은 배터리 기반 가정 에너지 관리 시스템 사례를 통해 제안 방법의 성능과 설명 가능성을 검증한다. 실험 결과, 제안 방법은 기준 규칙 기반 정책보다 약 20-25% 우수한 성능을 보이며, 동시에 간단하고 설명 가능한 제어 정책을 제공한다. 또한 표준 강화 학습 정책과 비교하여 성능 trade-off를 분석한다.
Stats
가정 부문은 최종 에너지 소비의 약 25%를 차지한다.
제안 방법의 DDT 기반 에이전트는 기준 규칙 기반 정책보다 약 20-25% 우수한 성능을 보인다.
DDT 기반 에이전트는 DQN 기반 교사 에이전트와 비교하여 약 5% 낮은 성능을 보인다.
Quotes
"가정 부문은 중요한(잠재적) 에너지 유연성 원천이다."
"대부분의 RL 기반 연구는 시뮬레이션 환경 또는 특수 건물에 국한되어 있다."
"RL 기반 제어기의 비해석적/비설명적 특성은 중요한 문제이다."