이 연구는 HVAC 제어를 위한 다양한 DRL 알고리즘의 실험적 평가를 수행했다. 주요 내용은 다음과 같다:
5ZoneAutoDXVAV와 2ZoneDataCenterHVAC 건물 모델을 사용하여 세 가지 기후 조건(hot dry, mixed humid, cool marine)에서 DRL 알고리즘(PPO, TD3, SAC)과 규칙 기반 제어기(RBC)의 성능을 비교했다.
최고 성능을 보인 DRL 에이전트를 이용해 다른 기후 조건에서의 일반화 능력(robustness)을 평가했다.
순차적 학습(sequential learning) 방식으로 DRL 에이전트를 훈련시켜 단일 기후 조건에서 훈련된 에이전트와 성능을 비교했다.
쾌적성과 에너지 소비 간 가중치 변화가 DRL 에이전트의 성능에 미치는 영향을 분석했다.
결과적으로 SAC와 TD3 알고리즘이 HVAC 제어 문제에서 우수한 성능을 보였다. 그러나 일반화 능력과 순차적 학습에서는 여전히 개선의 여지가 있음을 확인했다. 또한 보상 함수의 설계가 에이전트의 성능에 중요한 영향을 미치는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Deeper Inquiries