이 논문은 에너지 관리 시스템에서 강화 학습 기반 제어기의 설명 가능성을 높이기 위한 새로운 방법을 제안한다. 기존의 강화 학습 기반 제어기는 성능이 우수하지만 설명하기 어려운 문제가 있다. 이를 해결하기 위해 저자들은 차별화 가능한 의사 결정 트리와 정책 증류 기법을 사용한다.
먼저 표준 강화 학습 기반 제어기를 학습한다. 그 다음 이 제어기의 정책을 차별화 가능한 의사 결정 트리로 증류한다. 이를 통해 데이터 기반이며 쉽게 설명 가능한 제어 정책을 얻을 수 있다.
저자들은 배터리 기반 가정 에너지 관리 시스템 사례를 통해 제안 방법의 성능과 설명 가능성을 검증한다. 실험 결과, 제안 방법은 기준 규칙 기반 정책보다 약 20-25% 우수한 성능을 보이며, 동시에 간단하고 설명 가능한 제어 정책을 제공한다. 또한 표준 강화 학습 정책과 비교하여 성능 trade-off를 분석한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Gargya Gokha... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11907.pdfDybere Forespørgsler