이 논문은 강화 학습 관점에서 연속 시간 및 상태 공간 최적 정지 문제를 탐구합니다. 탐색을 장려하고 학습을 촉진하기 위해 성과 기준에 누적 잔여 엔트로피를 도입하여 정규화된 문제를 제안합니다. 이는 유한 연료를 가진 (n+1)차원 퇴화 특이 확률 제어 문제의 형태를 취합니다. 동적 계획법 원리를 통해 이 문제의 해를 식별하고 최적의 탐색적 전략을 구축합니다.