Grunnleggende konsepter
차별화 가능한 의사결정 트리를 활용하여 강화학습 기반 에이전트를 학습함으로써, 성능과 설명 가능성을 모두 갖춘 가정 에너지 관리 시스템 제어 정책을 개발할 수 있다.
Sammendrag
이 연구는 차별화 가능한 의사결정 트리(DDT)를 활용하여 표준 오프-정책 강화학습 알고리즘인 DDPG의 액터 네트워크를 구현하는 새로운 방법을 소개한다. 이를 통해 가정 에너지 관리 시스템(HEMS) 문제에 적용하였으며, 성능과 설명 가능성을 모두 갖춘 제어 정책을 학습할 수 있음을 보였다.
구체적으로:
- 가정 내 태양광 발전, 배터리 등 유연성 자원을 고려한 HEMS 문제를 정의하고, 이를 강화학습 문제로 모델링하였다.
- DDT를 DDPG의 액터 네트워크로 사용하는 새로운 방법을 제안하였다. 이를 통해 학습된 제어 정책은 단순한 if-then-else 규칙 형태로 표현되어 설명 가능하다.
- 제안한 DDT 기반 에이전트의 성능을 표준 DDPG 에이전트 및 기준 제어기와 비교한 결과, DDT 기반 에이전트가 약 20% 더 나은 일일 비용 절감 성능을 보였다.
- 학습된 DDT 정책을 시각화하여 직관적으로 이해할 수 있음을 보였다.
이 연구 결과는 강화학습 기반 HEMS 제어기의 실용화를 위한 중요한 진전을 보여준다. 향후 연구에서는 DDT 기반 에이전트의 안정성 향상, 다양한 유연성 자원 활용, 실제 가정에서의 실증 등을 수행할 계획이다.
Statistikk
제안한 DDT 기반 에이전트(깊이 3)의 평균 일일 비용: 3.02유로
표준 DDPG 에이전트의 평균 일일 비용: 3.34유로
기준 RBC 제어기의 평균 일일 비용: 4.70유로
Sitater
"차별화 가능한 의사결정 트리를 활용하여 강화학습 기반 에이전트를 학습함으로써, 성능과 설명 가능성을 모두 갖춘 가정 에너지 관리 시스템 제어 정책을 개발할 수 있다."
"학습된 DDT 정책을 시각화하여 직관적으로 이해할 수 있음을 보였다."