Core Concepts
연료 제약이 있는 단일 무인 항공기를 이용하여 일련의 목표물을 지속적으로 감시하는 문제를 심층 강화 학습 기반 접근법으로 해결한다.
Abstract
이 논문은 연료 또는 비행 시간 제약이 있는 단일 무인 항공기를 이용하여 일련의 목표물을 지속적으로 감시하는 문제를 다룬다. 무인 항공기는 연료 보충 또는 배터리 교체를 위해 정기적으로 기지로 돌아와야 한다. 문제의 목적은 어떤 목표물에 대한 최대 재방문 시간을 최소화하는 최적의 방문 순서를 찾는 것이다.
논문에서는 이 문제를 마르코프 의사결정 과정(MDP)으로 정식화하고, 심층 강화 학습(D-RL) 알고리즘을 사용하여 해결한다. 특히 다음과 같은 기술을 제안한다:
목표물 수에 관계없이 일반화할 수 있는 접근법을 위해 더미 목표물 사용
연료 제약 준수를 위한 행동 마스킹 기법
실험 결과, 제안된 D-RL 접근법이 일반적인 탐욕 휴리스틱 기법에 비해 우수한 성능을 보였다. 또한 연료 용량 변화에도 강건한 것으로 나타났다.
Stats
무인 항공기의 연료 용량은 120 단위이며, 연료 소비율은 1 단위/거리 단위이다.
무인 항공기의 속도는 1 거리 단위/시간 단위이다.