오프라인 지도 학습은 사전 계산된 최적 제어 데이터셋을 활용하여 최적 제어기를 직접 학습하는 반면, 온라인 직접 정책 최적화는 최적 제어 문제를 최적화 문제로 변환하여 직접 해결한다. 두 방법의 비교 분석 결과, 오프라인 지도 학습이 최적성과 학습 시간 측면에서 우수하다. 이를 바탕으로 사전 학습 및 미세 조정 전략이라는 통합 학습 체계를 제안하여 성능과 강건성을 크게 향상시킬 수 있다.
본 논문에서는 측정값 제어를 가진 포물선 방정식으로 구성된 최적 제어 문제를 연구한다. 최적 제어 문제의 잘 정의성을 확립하고, Clarke의 부차미분을 이용하여 최적 제어의 희소성 구조를 드러내는 1차 최적성 조건을 도출한다.