오프라인 양자 강화 학습을 위한 모델 기반 접근법
이 논문은 모델 기반 오프라인 양자 강화 학습 알고리즘을 제시하고 카트-폴 벤치마크에서 기능을 입증합니다. 모델과 최적화할 정책은 각각 변분 양자 회로로 구현됩니다. 모델은 사전 기록된 데이터 세트를 맞추기 위해 경사 하강법으로 학습됩니다. 정책은 모델이 제공하는 수익 추정치를 사용하는 경사 없는 최적화 방식으로 최적화됩니다. 이러한 모델 기반 접근 방식을 통해 최적화 단계에서 양자 컴퓨터에서 완전히 구현할 수 있으며, 충분히 강력한 양자 컴퓨터를 사용할 수 있게 되면 양자 이점을 달성할 수 있습니다.