이 논문은 수집 카드 게임 Legends of Code and Magic (LOCM)의 최강 에이전트 ByteRL의 성능을 분석하고 이를 이기는 방법을 제시한다.
먼저 행동 모방 학습(behaviour cloning)을 통해 ByteRL의 행동을 모방하는 에이전트를 학습하였다. 이 에이전트는 ByteRL과 거의 대등한 수준의 성능을 보였다.
이후 강화학습을 통해 ByteRL을 이기는 에이전트를 학습하였다. 고정된 덱 풀 환경에서 시작하여 점진적으로 덱 풀 크기를 늘려가며 학습을 진행하였다. 행동 모방 학습을 통해 사전 학습된 에이전트가 무작위 초기화 에이전트에 비해 더 빠르게 ByteRL을 이기는 수준에 도달하였다.
향후 계획으로는 덱 구축 단계에서의 성능 향상, 더 큰 규모의 신경망 아키텍처 실험, 강화학습 시 커리큘럼 러닝 기법 적용 등이 있다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Radovan Halu... klokken arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16689.pdfDypere Spørsmål