핵심 개념
강화학습 에이전트가 2차원과 3차원 환경에서 어떻게 적응하고 성능을 발휘하는지 탐구한다.
초록
이 연구는 강화학습 알고리즘의 성능을 2차원과 3차원 환경에서 탐구한다.
- 2차원 환경: 50x50 크기의 평면에서 에이전트가 시작점(0,0)에서 목표점(49,49)까지 이동한다. 4가지 방향(상,하,좌,우)의 행동이 가능하다.
- 3차원 환경: 50x50x50 크기의 공간에서 에이전트가 시작점(0,0,0)에서 목표점(49,49,49)까지 이동한다. 6가지 방향(상,하,좌,우,앞,뒤)의 행동이 가능하다.
- 2차원 환경에서 에이전트는 약 65회 학습 후 안정화되었지만, 3차원 환경에서는 약 1450회 학습 후 안정화되어 약 22배 더 많은 학습이 필요했다.
- 이는 차원이 증가함에 따라 계산 복잡도가 크게 증가함을 보여준다.
- 향후 다차원 환경에서의 강화학습 동학과 계산 복잡도 완화 방안에 대한 연구가 필요할 것으로 보인다.
통계
2차원 환경에서 에피소드 1에서 에이전트는 20,000 단계 만에 보상을 얻었다.
에피소드 10에서는 약 8,500 단계 만에 보상을 얻었다.
에피소드 55에서는 약 130 단계 만에 보상을 얻었다.
에피소드 500에서는 정확히 107 단계 만에 보상을 얻었다.
3차원 환경에서 에피소드 1에서 에이전트는 20,000 단계 만에 보상을 얻지 못했다.
에피소드 약 1,000에서는 보상을 얻는 데 더 적은 단계가 필요했다.
에피소드 약 1,500에서는 약 200 단계 만에 보상을 얻었다.
에피소드 5,000에서는 단 163 단계 만에 보상을 얻었다.