이 논문은 UAV의 강변 자율 비행을 위한 강화 학습과 모방 학습의 통합 접근법을 제안한다. 강변 환경은 부분 관측 가능 마르코프 의사결정 프로세스(POMDP)와 비마르코프 보상 함수로 인해 강화 학습에 어려움이 있다. 이를 해결하기 위해 저자들은 초기에 사람의 시연을 통해 모방 학습 전문가를 훈련하고, 이후 강화 학습 에이전트와 상호작용하며 전문가 정책을 개선하는 방식으로 접근한다. 이를 통해 학습 속도 향상과 최종 성능 향상을 달성하였다. 또한 사실적인 강변 시뮬레이션 환경을 개발하여 실제 환경과 유사한 조건에서 알고리즘을 검증하였다. 실험 결과, 제안 방법이 기존 강화 학습 및 모방 학습 방법보다 우수한 성능을 보였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы