Core Concepts
수집 카드 게임 에이전트 ByteRL의 취약성을 분석하고 이를 이기는 최적 대응 전략을 학습하였다.
Abstract
이 논문은 수집 카드 게임 Legends of Code and Magic (LOCM)의 최강 에이전트 ByteRL의 성능을 분석하고 이를 이기는 방법을 제시한다.
먼저 행동 모방 학습(behaviour cloning)을 통해 ByteRL의 행동을 모방하는 에이전트를 학습하였다. 이 에이전트는 ByteRL과 거의 대등한 수준의 성능을 보였다.
이후 강화학습을 통해 ByteRL을 이기는 에이전트를 학습하였다. 고정된 덱 풀 환경에서 시작하여 점진적으로 덱 풀 크기를 늘려가며 학습을 진행하였다. 행동 모방 학습을 통해 사전 학습된 에이전트가 무작위 초기화 에이전트에 비해 더 빠르게 ByteRL을 이기는 수준에 도달하였다.
향후 계획으로는 덱 구축 단계에서의 성능 향상, 더 큰 규모의 신경망 아키텍처 실험, 강화학습 시 커리큘럼 러닝 기법 적용 등이 있다.
Stats
수집 카드 게임 LOCM 1.2 버전에는 160개의 카드가 있으며, 약 1.33 x 10^198개의 덱 구성이 가능하다.
LOCM 1.5 버전에서는 120개의 카드가 무작위로 생성되며, 실질적으로 무한대의 덱 구성이 가능하다.
ByteRL은 LOCM 1.5 버전에서 최강의 성능을 보이는 에이전트이다.
Quotes
"수집 카드 게임은 인공지능 연구에 있어 많은 도전과제를 제시한다."
"ByteRL은 LOCM 1.5 버전에서 최강의 성능을 보이는 에이전트이다."