Core Concepts
차별화 가능한 의사결정 트리를 활용하여 데이터 기반 강화 학습 에이전트를 학습함으로써 확장성과 설명 가능성을 갖춘 가정 에너지 관리 시스템을 구현할 수 있다.
Abstract
본 연구는 차별화 가능한 의사결정 트리(DDT)를 활용하여 표준 오프-정책 강화 학습 알고리즘인 DDPG를 구현하는 새로운 방법을 제안한다. 이를 통해 데이터 기반 강화 학습 에이전트의 확장성과 설명 가능성을 향상시킬 수 있다.
구체적으로:
- DDT를 활용하여 DDPG의 액터 네트워크를 구현하였다. 이를 통해 학습된 정책이 단순한 if-then-else 규칙 형태로 표현되어 설명 가능하다.
- 가정 에너지 관리 시스템 문제에 DDT 기반 에이전트를 적용하여 성능을 평가하였다. 결과적으로 DDT 기반 에이전트가 표준 신경망 기반 DDPG 에이전트와 유사한 성능을 보이며, 기준 규칙 기반 제어기를 약 20% 개선하는 것으로 나타났다.
- 학습된 DDT 정책을 시각화하여 직관적으로 이해할 수 있음을 보였다. 이는 최종 사용자의 수용성 향상에 기여할 것으로 기대된다.
향후 연구에서는 DDT 기반 에이전트의 안정성 향상, 다양한 유연성 자원을 활용하는 확장된 가정 에너지 관리 시스템 개발, 실제 가정에 적용하여 사용자 수용성 평가 등을 수행할 계획이다.
Stats
제안된 DDT 깊이 3 에이전트의 일일 평균 비용은 3.02유로로, 표준 DDPG 에이전트(3.34유로)와 기준 규칙 기반 제어기(4.70유로)보다 우수한 성능을 보였다.
DDT 깊이 2 에이전트의 일일 평균 비용은 3.47유로로, 표준 DDPG 에이전트와 유사한 수준이다.
Quotes
"차별화 가능한 의사결정 트리를 활용하여 표준 오프-정책 액터-비평가 강화 학습 에이전트를 구현할 수 있다."
"제안된 DDT 기반 에이전트는 표준 신경망 기반 에이전트와 유사한 성능을 보이며, 기준 규칙 기반 제어기를 약 20% 개선하는 것으로 나타났다."
"학습된 DDT 정책은 단순한 if-then-else 규칙 형태로 표현되어 직관적으로 이해할 수 있다."