본 논문에서는 상태 및 보상 분포에 대한 결합적 불확실성을 활용하여 낙관적 탐색을 수행하는 새로운 모델 기반 강화 학습 알고리즘인 HOT-GP를 제안합니다. HOT-GP는 가우시안 프로세스를 사용하여 보상-역학 관계를 모델링하고, 낙관적인 보상과 관련된 그럴듯한 전이를 시뮬레이션하여 샘플 효율성을 향상시킵니다.