Core Concepts
복잡한 미로 환경에서 부분 관찰 상태 하에서도 단순한 브라이텐버그 스타일 행동 패턴을 통해 효과적으로 내비게이션을 수행할 수 있다.
Abstract
이 연구에서는 복잡한 미로 환경에서 부분 관찰 상태 하에서도 효과적인 내비게이션을 수행할 수 있는 방법을 제안한다. 기존의 딥 강화 학습 기반 접근법과 달리, 이 연구에서는 복잡한 행동이 단순한 휴리스틱으로부터 자연스럽게 발현되는 것을 보여준다.
구체적으로, 이 연구에서는 엉킨 프로그램 그래프(Tangled Program Graphs, TPG) 기법을 사용하여 미로 탐색 과제를 해결한다. TPG는 상태 공간의 일부만을 샘플링하고 모듈성을 활용하여 복잡한 문제를 단순한 구성 요소로 분해할 수 있다. 실험 결과, TPG 에이전트는 단순한 브라이텐버그 스타일 휴리스틱을 발견하여 효과적으로 미로를 탐색할 수 있었다. 이러한 휴리스틱에는 다음과 같은 특성이 포함된다:
방 중앙에서 시작한 후 벽을 따라 이동
벽을 따라 이동하다 방향을 바꾸어 다른 방향으로 이동
방 모서리에 도달했을 때 방향을 재조정
이와 같은 단순한 휴리스틱을 통해 TPG 에이전트는 복잡한 미로 환경에서 효과적으로 내비게이션을 수행할 수 있었다. 이는 기존 딥 강화 학습 접근법과 대비되는 결과로, 복잡한 행동이 단순한 상호작용으로부터 자연스럽게 발현될 수 있음을 보여준다.
Stats
미로의 각 방에서 100번씩 랜덤한 방향으로 시작하여 목표 지점까지 도달하는 데 걸린 누적 보상
DQN 에이전트의 평균 누적 보상: -0.094
TPG 에이전트의 평균 누적 보상: 0.561
Quotes
"복잡한 행동이 단순한 상호작용으로부터 자연스럽게 발현될 수 있음을 보여준다."
"TPG 에이전트는 단순한 브라이텐버그 스타일 휴리스틱을 발견하여 효과적으로 미로를 탐색할 수 있었다."