Core Concepts
분산 부분 관찰 마르코프 의사결정 프로세스(Dec-POMDP) 문제 정의와 그래프 합성곱 강화 학습(DGN) 기반의 다중 에이전트 강화 학습 접근법을 통해 이동 중인 두 대상 간 통신 링크를 형성하는 문제를 해결한다.
Abstract
이 논문은 재난 대응과 같은 상황에서 무인 항공기 군집이 분산된 방식으로 협력하여 동적으로 통신 네트워크를 구축하는 문제를 다룬다.
Dec-POMDP 문제 정의:
에이전트 집합 I와 이동 대상 집합 T로 구성
에이전트의 부분 관찰 상태 Oi와 전체 상태 S 정의
이동 대상의 동적 움직임을 나타내는 UT 함수 정의
에이전트의 2차원 이동 액션 공간 Ai 정의
연결성 기반 보상 함수 R 정의
다중 에이전트 강화 학습 접근법:
그래프 합성곱 신경망(DGN)을 활용하여 에이전트 간 메시지 전달과 잠재 표현 공유
LSTM을 통해 시간적 의존성과 부분 관찰성 처리
이중 행동 디코더로 상태 가치와 행동 이점 추정
LVC UAV 프레임워크와의 통합:
실제 및 시뮬레이션 UAV 에이전트를 통합하여 학습된 정책의 실제 세계 성능 평가
실험 결과:
제안 방식과 중앙 집중형 휴리스틱 방식 비교
제안 방식이 에피소드 기간의 63.88%에서 두 대상 간 링크 형성 가능
Stats
제안 방식의 평균 총 보상: 6494.13 ± 941.50
중앙 집중형 휴리스틱의 평균 총 보상: 8440.28 ± 490.58