核心概念
본 논문은 모델 기반 학습 방식의 한계를 극복하고 실행 지식을 활용하여 경로 추적 제어 정책을 지속적으로 개선하는 평생 정책 학습 프레임워크를 제안한다.
统计
차량 상태 천이와 제어 입력 간의 관계를 나타내는 식 (5)와 (6)을 통해 최적 제어 정책을 근사할 수 있다.
차량 상태 천이 오차와 제어 노력을 고려한 비용 함수 식 (7)을 통해 제어 성능을 개선할 수 있다.
引用
"모방 학습만으로는 성능 향상에 한계가 있으며, 실행 지식을 활용한 지속적인 정책 개선이 필요하다."
"평생 학습 기법과 지식 평가 방법을 통해 정책 성능을 안정적으로 향상시킬 수 있다."