Core Concepts
変分量子方策反復(VarQPI)アルゴリズムを提案し、大規模な線形方程式系を量子的に効率的に解くことで、強化学習の方策評価を実現する。さらに、温始まり初期化を導入したWS-VarQPIにより、収束速度を大幅に改善する。
Abstract
本研究では、強化学習の方策反復フレームワークにおいて、方策評価ステップを量子的に高速化するVarQPIアルゴリズムを提案している。
方策評価は、大規模な線形方程式系を解くことで実現される。VarQPIでは、この計算を変分量子アルゴリズムを用いて行う。
さらに、温始まり初期化を導入したWS-VarQPIを提案し、収束速度を大幅に改善する。
一般的な強化学習環境の構造分析から、量子アドバンテージが期待できることを示す。
FrozenLake環境での実験により、WS-VarQPIの実用性と堅牢性を実証する。
Stats
無作為に初期化したVarQPIでは、平均4.0±0.9回の反復で収束するのに対し、WS-VarQPIでは平均4.1±0.9回の反復で収束する。
WS-VarQPIでは、総トレーニングステップ数が5663±1366から3943±952に約30%減少する。
8x8 FrozenLake環境では、WS-VarQPIが9回の反復と82160ステップで最適方策を見つける。
Quotes
"Warm-Start Variational Quantum Policy Iteration"
"Reinforcement learning is a powerful framework aiming to determine optimal behavior in highly complex decision-making scenarios."
"We propose the variational quantum policy iteration (VarQPI) algorithm, realizing this step with a NISQ-compatible quantum-enhanced subroutine."