이 논문은 무인 항공기와 이동식 충전기의 협력적 스케줄링 문제를 다룬다. 무인 항공기는 관심 지점을 순차적으로 관찰해야 하지만 배터리 수명이 제한적이므로, 이동식 충전기가 무인 항공기를 충전할 수 있도록 스케줄링해야 한다.
이 문제는 이산 및 연속 혼합 행동 공간을 가지는 다단계 의사결정 과정으로 모델링된다. 기존 강화 학습 기법으로는 이 문제를 효과적으로 해결할 수 없기 때문에, 저자들은 HaDMC라는 하이브리드 액션 심층 강화 학습 프레임워크를 제안한다.
HaDMC는 표현 학습 기반 접근법을 사용하여 혼합 행동 공간을 연속 잠재 행동 공간으로 변환한다. 이를 위해 행동 디코더를 설계하여 연속 잠재 행동을 원래의 이산 및 연속 행동으로 변환한다. 행동 디코더의 두 파이프라인은 상호 학습 체계를 통해 무인 항공기와 충전기의 협력적 행동을 학습한다. 또한 보상 함수를 HaDMC 프레임워크에 통합하여 학습 과정을 효과적으로 안내한다.
실험 결과, HaDMC가 기존 심층 강화 학습 모델에 비해 더 효과적이고 효율적으로 무인 항공기와 충전기의 스케줄링 문제를 해결할 수 있음을 보여준다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究