이 논문은 우주 공간에서의 다중 에이전트 추격-회피 게임을 다룬다. 우주 공간이 점점 혼잡해지고 경쟁적으로 변함에 따라, 다중 에이전트 환경에서의 강건한 자율 기능이 중요해지고 있다. 현재 우주에서 사용되는 자율 시스템은 주로 최적화 기반 경로 계획 또는 장거리 궤도 기동을 사용하지만, 한 위성이 다른 위성을 적극적으로 추격하는 적대적 시나리오에서는 효과적이지 않다.
이 논문에서는 Divergent Adversarial Reinforcement Learning (DARL)이라는 2단계 다중 에이전트 강화 학습 접근법을 소개한다. DARL은 훈련 중 다양한 적대적 전략을 장려하여 탐색을 향상시키고, 더 강건하고 적응력 있는 회피자 모델을 생성한다. 고양이와 쥐 위성 시나리오를 통해 DARL의 성능을 검증하며, 최적화 기반 위성 경로 계획기와 비교하여 DARL이 적대적 다중 에이전트 우주 환경에서 강건한 모델을 생성할 수 있음을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询