리셋 없는 강화 학습을 위한 지능형 스위칭 기법
실제 세계에서는 시뮬레이션에서 에이전트를 학습시키기 위해 필요한 강력한 에피소드 리셋 메커니즘을 사용할 수 없습니다. 이러한 리셋 가정은 실제 세계에서 강화 학습의 잠재력을 제한합니다. 이 논문에서는 에이전트의 현재 목표 달성 능력에 따라 전방 및 역방향 에이전트 간 지능적으로 전환하는 새로운 알고리즘인 RISC를 제안합니다. RISC는 여러 도전적인 리셋 없는 환경에서 최첨단 성능을 달성합니다.