이 논문은 강화 학습에서 내재적 동기를 향상시키기 위한 새로운 접근법인 사전 학습된 네트워크 증류(PreND)를 소개한다. PreND는 널리 사용되는 예측 기반 방법인 Random Network Distillation(RND)의 한계를 극복하기 위해 고안되었다.
PreND는 다음과 같은 방식으로 RND의 문제를 해결한다:
실험 결과, PreND는 RND와 RND의 변형 모델에 비해 Atari 도메인에서 더 나은 성능을 보였다. 이는 목표 네트워크와 예측기 네트워크의 표현이 의미 있는 내재적 보상을 생성하는 데 중요한 역할을 한다는 것을 보여준다.
향후 연구에서는 PreND를 더 복잡한 환경이나 모델 기반 강화 학습 알고리즘에 적용하는 것을 고려할 수 있다. 또한 계산 효율성을 높이기 위해 더 가벼운 사전 학습 모델을 사용하는 것도 검토할 수 있다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések