Core Concepts
본 논문은 모델 기반 학습 방식의 한계를 극복하고 실행 지식을 활용하여 경로 추적 제어 정책을 지속적으로 개선하는 평생 정책 학습 프레임워크를 제안한다.
Abstract
모델 기반 제어 방식의 한계:
복잡한 차량 특성 추정 및 파라미터 튜닝 필요
환경 변화에 적응하기 어려움
제안하는 평생 정책 학습 프레임워크:
모방 학습을 통해 초기 정책을 학습
평생 학습 기법을 활용하여 실행 지식으로 정책을 지속적으로 개선
지식 평가 방법을 통해 성능 향상을 보장하고 학습 비용을 줄임
실험 결과:
제안 방식은 실행 지식을 활용하여 정책 성능을 지속적으로 향상시킬 수 있음
기존 방식 대비 더 나은 정확도와 제어 안정성 달성
실제 환경에서의 학습 및 진화 능력 입증
Stats
차량 상태 천이와 제어 입력 간의 관계를 나타내는 식 (5)와 (6)을 통해 최적 제어 정책을 근사할 수 있다.
차량 상태 천이 오차와 제어 노력을 고려한 비용 함수 식 (7)을 통해 제어 성능을 개선할 수 있다.
Quotes
"모방 학습만으로는 성능 향상에 한계가 있으며, 실행 지식을 활용한 지속적인 정책 개선이 필요하다."
"평생 학습 기법과 지식 평가 방법을 통해 정책 성능을 안정적으로 향상시킬 수 있다."