이 논문은 다중 에이전트 경로 탐색(MAPF) 문제를 해결하기 위한 새로운 방법인 EPH(Ensembling Prioritized Hybrid Policies)를 제안한다.
먼저 선택적 통신 블록을 도입하여 다중 에이전트 환경에서 더 풍부한 정보를 수집할 수 있도록 하고, Q-learning 기반 알고리즘으로 모델을 학습한다.
이후 실행 단계에서 성능을 높이기 위해 세 가지 고급 추론 전략을 도입한다:
우선순위 기반 충돌 해결: 충돌 상황에서 Q 값이 높은 에이전트에게 더 높은 우선순위를 부여하여 효율적으로 충돌을 해결한다.
고급 탈출 정책: 교착 상태를 탐지하고 Q 값 기반 우선순위로 에이전트를 정렬하여 A* 알고리즘으로 탈출 경로를 찾는다.
하이브리드 전문가 지도: 주변에 다른 에이전트가 없는 경우 A* 알고리즘으로 생성한 단일 에이전트 최적 경로를 활용하여 의사결정을 안내한다.
마지막으로 앙상블 기법을 도입하여 병렬로 실행된 다양한 추론 전략 중 최적의 솔루션을 선택한다.
실험 결과, EPH는 복잡한 다중 에이전트 환경에서 기존 최신 신경망 기반 MAPF 솔버들을 능가하는 성능을 보여주었다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы