적응형 제어 해상도 기반 Q-네트워크를 통해 연속 제어 과제를 효율적으로 해결할 수 있다.
연속 공간에서 정책 최적화 과정에서 효율적인 탐색을 위해 극값 탐색 기반 행동 선택 기법을 제안한다. 이를 통해 저품질 궤적 샘플링을 줄이고 학습 효율을 높일 수 있다.
2차 보상 함수를 사용한 강화 학습에서 발생하는 정상 상태 오차를 줄이기 위해 적분 항을 보상 함수에 도입하는 방법을 제안한다. 이를 통해 정상 상태 오차를 감소시키면서도 특정 시스템 상태의 급격한 변화를 방지할 수 있다.
본 논문은 강화 학습 기반 제어 시스템의 안정성을 보장하는 프레임워크를 제안한다. 이를 위해 Youla-Kučera 매개변수화를 활용하여 안정적인 제어기를 학습할 수 있는 방법을 제시한다.