이 논문은 다중 에이전트 시스템의 강건성을 진단하기 위한 새로운 방법인 MADRID(Multi-Agent Diagnostics for Robustness via Illuminated Diversity)를 소개한다. MADRID는 품질 다양성(quality-diversity) 알고리즘을 활용하여 사전 학습된 다중 에이전트 정책의 전략적 취약점을 드러내는 다양한 적대적 환경 시나리오를 생성한다.
MADRID는 먼저 환경 매개변수 공간을 이산화하고 MAP-Elites 알고리즘을 사용하여 이 공간을 탐색한다. 각 셀에는 참조 정책과 해당 셀에서의 목표 정책의 후회(regret)가 저장된다. 후회는 목표 정책의 성능과 최적 정책의 성능 간 차이를 나타내며, 이를 통해 목표 정책의 취약점을 식별할 수 있다.
MADRID를 구글 리서치 축구 환경에 적용하여 TiZero라는 최신 다중 에이전트 강화학습 모델의 취약점을 분석했다. 실험 결과, MADRID는 TiZero가 오프사이드 규칙을 이해하지 못하거나 상대 골문 근처에서 비효율적인 전략을 구사하는 등 다양한 전략적 실수를 저지르는 상황을 발견했다. 이는 MADRID가 다중 에이전트 정책의 잠재적 취약점을 효과적으로 드러낼 수 있음을 보여준다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor