Core Concepts
대규모 이웃 탐색 프레임워크(MARL-LNS)를 제안하여 각 학습 반복에서 에이전트의 하위 집단(이웃)을 사용하여 협력적 다중 에이전트 강화 학습의 효율성을 높임
Abstract
이 논문에서는 협력적 다중 에이전트 강화 학습(MARL)의 효율성을 높이기 위해 대규모 이웃 탐색(MARL-LNS) 프레임워크를 제안합니다.
MARL-LNS 프레임워크는 각 학습 반복에서 에이전트의 하위 집단(이웃)을 사용하여 학습을 수행합니다. 이를 통해 전체 에이전트 집합을 한 번에 학습하는 것보다 효율적으로 학습할 수 있습니다.
구체적으로 MARL-LNS 프레임워크는 다음과 같이 작동합니다:
각 LNS 반복에서 m개의 에이전트로 구성된 이웃을 선택합니다.
선택된 이웃의 경험만을 사용하여 기존 MARL 알고리즘(예: MAPPO)으로 학습을 수행합니다.
일정 수의 LNS 반복 후 새로운 이웃을 선택하여 학습을 반복합니다.
이 프레임워크를 기반으로 3가지 알고리즘(RLNS, BLNS, ALNS)을 제안합니다. 이 알고리즘들은 이웃 선택 방식만 다를 뿐 추가 매개변수 없이 기존 MARL 알고리즘을 활용합니다.
실험 결과, 제안 알고리즘들은 StarCraft Multi-Agent Challenge와 Google Research Football 환경에서 기존 알고리즘과 유사한 성능을 보이면서도 10% 이상의 학습 시간 단축을 달성했습니다. 이는 MARL-LNS 프레임워크가 효율성과 효과성을 균형 있게 달성할 수 있음을 보여줍니다.
Stats
제안 알고리즘은 기존 MAPPO 대비 최대 25%의 학습 시간 단축을 달성했습니다.
제안 알고리즘은 StarCraft Multi-Agent Challenge의 MMM2 시나리오에서 96.9%의 승률을 달성했습니다.
제안 알고리즘은 Google Research Football의 Corner 시나리오에서 65.6%의 평균 승률을 달성했습니다.
Quotes
"대규모 이웃 탐색은 조합 최적화 문제와 다중 에이전트 경로 탐색 문제에서 좋은 솔루션을 찾는 데 사용되는 인기 있는 메타 휴리스틱입니다."
"우리의 알고리즘 프레임워크는 MARL 컨텍스트에서 이웃을 파괴하고 재구축하는 것이 의미하는 바를 구체적으로 명시합니다."