Konsep Inti
내재적 보상 기반 탐험 방법의 비정상성을 해결하여 강화학습 에이전트의 탐험 성능을 향상시킨다.
Abstrak
이 논문은 강화학습에서 내재적 보상을 사용한 탐험 방법의 비정상성 문제를 해결하는 SOFE(Stationary Objectives For Exploration) 프레임워크를 제안한다.
- 내재적 보상 기반 탐험 방법은 보상 분포의 비정상성으로 인해 최적의 정책을 학습하기 어려운 문제가 있다.
- SOFE는 내재적 보상의 충분 통계량을 상태 표현에 포함시켜 보상 분포의 정상성을 확보한다.
- SOFE는 count-based 보상, pseudo-count 보상, 상태 엔트로피 최대화 등 다양한 내재적 보상 방법에 적용되어 성능 향상을 보인다.
- 희소 보상 문제, 픽셀 기반 관측, 3D 탐험 등 다양한 환경에서 SOFE의 효과를 검증하였다.
- SOFE는 내재적 보상의 비정상성을 해결하여 강화학습 에이전트의 탐험 성능을 향상시킬 수 있는 일반적인 프레임워크이다.
Statistik
에이전트가 상태 s를 방문한 횟수 Nt(s)는 시간 t에 따라 변화하므로 내재적 보상이 비정상적이다.
상태 표현에 Nt(s)를 포함하면 내재적 보상이 정상적이 된다.
상태 엔트로피 최대화 보상의 충분 통계량은 상태 분포의 평균 μt와 분산 σ2
t이다.
E3B 알고리즘의 충분 통계량은 공분산 행렬 Ct이다.
Kutipan
"내재적 보상 기반 탐험 방법은 비정상적이며, 이로 인해 최적의 정책을 학습하기 어렵다."
"SOFE는 내재적 보상의 충분 통계량을 상태 표현에 포함시켜 보상 분포의 정상성을 확보한다."
"SOFE는 다양한 내재적 보상 방법에 적용되어 탐험 성능을 향상시킬 수 있다."