이 논문은 N-Agent Ad Hoc Teamwork (NAHT)라는 새로운 문제 설정을 제안한다. NAHT에서는 N개의 자율 에이전트가 M개의 알 수 없는 팀원들과 협력하여 공동 과제를 수행해야 한다. 이는 기존의 완전 협력 다중 에이전트 강화학습(MARL)과 애드혹 팀워크(AHT) 문제를 일반화한 것이다.
논문에서는 NAHT 문제를 정의하고, Policy Optimization with Agent Modelling (POAM)이라는 알고리즘을 제안한다. POAM은 팀원 행동 모델링 네트워크와 독립적인 액터-크리틱 구조를 사용하여, 다양한 팀원 행동에 적응할 수 있는 정책을 학습한다.
StarCraft II 벤치마크에서의 실험 결과, POAM은 기존 MARL 및 AHT 기반 접근법에 비해 더 높은 협력 과제 수행 능력을 보였다. 또한 POAM은 학습하지 않은 새로운 팀원들과의 협력에서도 우수한 일반화 성능을 보였다.
이 논문은 MARL과 AHT의 장점을 결합하여 더 현실적인 협력 시나리오에 적용할 수 있는 새로운 접근법을 제시했다는 점에서 의의가 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Caroline Wan... at arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10740.pdfDeeper Inquiries