The authors propose the variational quantum policy iteration (VarQPI) algorithm, which combines quantum-enhanced policy evaluation with classical policy improvement to solve complex reinforcement learning problems more efficiently than classical methods.
変分量子方策反復(VarQPI)アルゴリズムを提案し、大規模な線形方程式系を量子的に効率的に解くことで、強化学習の方策評価を実現する。さらに、温始まり初期化を導入したWS-VarQPIにより、収束速度を大幅に改善する。