본 연구에서는 강화학습을 통해 사전에 정의된 착륙 시간 제약 조건을 만족하는 제어 정책을 학습하는 방법을 제안한다. 보상 함수 설계를 통해 최적 정책이 해당 제약 조건을 충족하도록 보장한다.
본 연구에서는 강화학습을 통해 학습된 제어 정책이 사전에 정의된 성능 및 안정성 기준을 만족하도록 하는 보상 형성 방법을 제안한다. 이를 통해 강화학습 기반 제어 시스템의 실제 배포 전 성능을 보장할 수 있다.