실시간 순환 강화 학습: 생물학적으로 타당한 POMDP 제어 접근법
본 논문은 부분 관측 마르코프 의사결정 프로세스(POMDP)의 이산 및 연속 제어 과제를 해결하기 위한 생물학적으로 타당한 접근법인 실시간 순환 강화 학습(RTRRL)을 제안한다. RTRRL은 (1) 자체적으로 액터-비평가 알고리즘을 구현하는 메타 강화 학습 RNN 아키텍처, (2) 시간차 학습과 더치 적격성 추적을 활용하여 메타 강화 학습 네트워크를 학습시키는 외부 강화 학습 알고리즘, (3) 네트워크 매개변수에 대한 경사도를 계산하는 생물학적으로 타당한 온라인 자동 미분 알고리즘인 랜덤 피드백 국소 온라인(RFLO) 학습으로 구성된다.