Core Concepts
강화학습 에이전트가 2차원과 3차원 환경에서 어떻게 적응하고 성능을 발휘하는지 탐구한다.
Abstract
이 연구는 강화학습 알고리즘의 성능을 2차원과 3차원 환경에서 탐구한다.
2차원 환경: 50x50 크기의 평면에서 에이전트가 시작점(0,0)에서 목표점(49,49)까지 이동한다. 4가지 방향(상,하,좌,우)의 행동이 가능하다.
3차원 환경: 50x50x50 크기의 공간에서 에이전트가 시작점(0,0,0)에서 목표점(49,49,49)까지 이동한다. 6가지 방향(상,하,좌,우,앞,뒤)의 행동이 가능하다.
2차원 환경에서 에이전트는 약 65회 학습 후 안정화되었지만, 3차원 환경에서는 약 1450회 학습 후 안정화되어 약 22배 더 많은 학습이 필요했다.
이는 차원이 증가함에 따라 계산 복잡도가 크게 증가함을 보여준다.
향후 다차원 환경에서의 강화학습 동학과 계산 복잡도 완화 방안에 대한 연구가 필요할 것으로 보인다.
Stats
2차원 환경에서 에피소드 1에서 에이전트는 20,000 단계 만에 보상을 얻었다.
에피소드 10에서는 약 8,500 단계 만에 보상을 얻었다.
에피소드 55에서는 약 130 단계 만에 보상을 얻었다.
에피소드 500에서는 정확히 107 단계 만에 보상을 얻었다.
3차원 환경에서 에피소드 1에서 에이전트는 20,000 단계 만에 보상을 얻지 못했다.
에피소드 약 1,000에서는 보상을 얻는 데 더 적은 단계가 필요했다.
에피소드 약 1,500에서는 약 200 단계 만에 보상을 얻었다.
에피소드 5,000에서는 단 163 단계 만에 보상을 얻었다.