本論文では、部分観測マルコフ決定過程(POMDP)における強化学習の理論的解析を行っている。特に、状態空間と観測空間が無限大の場合に焦点を当てている。
まず、POMDPの線形関数近似モデルを定義し、観測演算子の逆演算子の作用素ノルムが学習の難易度を表す指標であることを示した。
次に、有限メモリのベルマン作用素を導入し、その推定問題を敵対的積分方程式に基づくミニマックス最適化問題として定式化した。これにより、状態遷移確率と観測確率の推定を回避しつつ、効率的に学習できる。
最後に、提案手法であるOP-TENETアルゴリズムを提案し、その標本効率を理論的に解析した。具体的には、状態空間と観測空間の大きさに依存せずに、内在次元に依存する多項式オーダーの標本複雑度を達成できることを示した。これは、部分観測下の強化学習問題に対する初めての理論的保証結果である。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Qi Cai,Zhuor... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2204.09787.pdfDybere Forespørgsler