Core Concepts
무인 항공기가 관심 지점을 관찰하고 이동식 충전기가 무인 항공기를 충전하는 스케줄링 문제를 해결하기 위해 하이브리드 액션 심층 강화 학습 기법을 제안한다.
Abstract
이 논문은 무인 항공기와 이동식 충전기의 협력적 스케줄링 문제를 다룬다. 무인 항공기는 관심 지점을 순차적으로 관찰해야 하지만 배터리 수명이 제한적이므로, 이동식 충전기가 무인 항공기를 충전할 수 있도록 스케줄링해야 한다.
이 문제는 이산 및 연속 혼합 행동 공간을 가지는 다단계 의사결정 과정으로 모델링된다. 기존 강화 학습 기법으로는 이 문제를 효과적으로 해결할 수 없기 때문에, 저자들은 HaDMC라는 하이브리드 액션 심층 강화 학습 프레임워크를 제안한다.
HaDMC는 표현 학습 기반 접근법을 사용하여 혼합 행동 공간을 연속 잠재 행동 공간으로 변환한다. 이를 위해 행동 디코더를 설계하여 연속 잠재 행동을 원래의 이산 및 연속 행동으로 변환한다. 행동 디코더의 두 파이프라인은 상호 학습 체계를 통해 무인 항공기와 충전기의 협력적 행동을 학습한다. 또한 보상 함수를 HaDMC 프레임워크에 통합하여 학습 과정을 효과적으로 안내한다.
실험 결과, HaDMC가 기존 심층 강화 학습 모델에 비해 더 효과적이고 효율적으로 무인 항공기와 충전기의 스케줄링 문제를 해결할 수 있음을 보여준다.
Stats
무인 항공기의 에너지 소비율은 비행 중 γf, 관찰 중 γo이다.
충전기의 충전률은 γc이다.
무인 항공기의 초기 배터리 용량은 e이고, 관심 지점 pi에 도착했을 때의 잔여 에너지는 ei이다.
무인 항공기가 pi에서 관찰하는 시간은 τi이며, 이 시간은 [τ min
i
, τ max
i
] 범위 내에 있다.
무인 항공기가 x에서 y로 비행하는 시간은 t(x, y)이고, 충전기가 x에서 y로 이동하는 시간은 ̃t(x, y)이다.