Core Concepts
다중 에이전트 강화 학습 알고리즘의 성능을 통계적으로 평가하기 위한 메타 게임 평가 프레임워크를 제안한다. 이 프레임워크는 알고리즘을 메타 전략으로 간주하고, 다양한 랜덤 시드 조합에 대한 경험적 게임을 반복적으로 샘플링하여 분석한다.
Abstract
이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 성능을 평가하기 위한 메타 게임 평가 프레임워크를 제안한다.
MARL 알고리즘을 메타 전략으로 간주하고, 다양한 랜덤 시드 조합에 대한 경험적 게임을 반복적으로 샘플링한다.
각 경험적 게임은 자기 대결(self-play) 및 교차 대결(cross-play) 요인을 모두 포착한다.
부트스트래핑을 사용하여 다양한 게임 분석 통계량에 대한 샘플링 분포를 구축한다.
협상 게임 클래스에서 최신 MARL 알고리즘을 평가하여, 개별 보상, 사회적 복지, 경험적 최선 응답 그래프 통계량을 통해 자기 대결, 집단 기반, 모델 없음, 모델 기반 MARL 방법 간의 전략적 관계를 밝혀낸다.
런타임 검색을 메타 전략 연산자로 조사하고, 메타 게임 분석을 통해 검색 버전의 메타 전략이 일반적으로 성능 향상으로 이어짐을 발견한다.
Stats
게임 내 자원 풀의 양은 [1, 2, 3]이다.
각 플레이어의 자원 단위 가치는 10으로 고정되어 있다.
Quotes
"다중 에이전트 강화 학습(MARL) 알고리즘의 평가는 훈련 과정의 확률성과 다른 에이전트의 행동에 대한 에이전트 성능의 민감성으로 인해 복잡해진다."
"우리는 메타 게임 평가 프레임워크를 제안하여 각 MARL 알고리즘을 메타 전략으로 프레이밍하고, 다양한 랜덤 시드 조합에서 발생하는 경험적 게임을 반복적으로 샘플링한다."