이 연구는 다중 에이전트 내비게이션 문제를 다룹니다. 다중 에이전트 내비게이션 성능과 환경 최적화라는 두 가지 하위 목표를 도입하여, 에이전트 행동과 장애물 구성의 최적 조합을 찾는 공동 최적화 문제를 제안합니다. 에이전트와 환경 간의 관계를 명시적으로 모델링하기 어려운 문제를 해결하기 위해, 정책 경사도를 사용하여 모델 없는 학습 메커니즘을 도입합니다. 수렴 분석을 통해 제안된 조정 알고리즘이 시간 변화 비볼록 최적화 문제의 지역 최소 궤적을 추적한다는 것을 보여줍니다. 실험 결과는 이론적 발견을 뒷받침하고 최적화된 환경 구성이 에이전트 간 충돌을 해결하는 데 핵심적인 구조적 안내를 제공할 수 있음을 보여줍니다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Zhan Gao,Gua... о arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14583.pdfГлибші Запити