이 논문은 대규모 이질적 다중 에이전트 시스템을 위한 Prioritized Heterogeneous League Reinforcement Learning (PHLRL) 방법을 제안한다. PHLRL은 다음과 같은 특징을 가진다:
리그 학습: PHLRL은 에이전트들이 다양한 정책을 탐색하고 협력할 수 있도록 리그 학습 기법을 사용한다. 리그는 과거 정책들의 집합으로, 에이전트들은 리그 정책들과 협력하며 자신의 정책을 발전시킨다.
우선순위 정책 경사도: PHLRL은 에이전트 유형 간 성능 차이를 보상하기 위해 우선순위 정책 경사도 학습 기법을 사용한다. 이를 통해 중요한 에이전트 유형의 학습을 안정화하고 전체 팀 성능을 향상시킨다.
적응형 하이퍼네트워크 기반 정책: PHLRL은 에이전트가 다양한 정책 조합에 적응할 수 있도록 하이퍼네트워크 기반의 정책 신경망 구조를 사용한다.
실험 결과, PHLRL은 대규모 이질적 다중 에이전트 협력 문제에서 기존 최신 방법들을 뛰어넘는 성능을 보였다. 또한 다양한 규모의 실험 환경에서도 우수한 확장성을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Qingxu Fu,Zh... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18057.pdfDeeper Inquiries