Główne pojęcia
最適ポリシーを学習するためのサンプル複雑性を解決する。
Streszczenie
- 平均報酬MDPsにおけるε-最適ポリシーの学習のサンプル複雑性に焦点を当てる。
- 現存の文献では未解決だったが、本論文はH(バイアス関数のスパン)とSA(状態行動空間の基数)に基づいた結果を提供。
- アルゴリズム1と2を使用して、割引MDPから平均報酬MDPへの問題を解決。
- サンプル数や精度など、具体的な条件下でアルゴリズムが最適なポリシーを見つけることが示されている。
Introduction
Matthew ZurekとYudong Chenは、平均報酬マルコフ決定過程(MDP)におけるε-最適ポリシーの学習に関するサンプル複雑性に焦点を当てています。この分野では未解決であったが、彼らはH(バイアス関数のスパン)とSA(状態行動空間の基数)に基づいた結果を提供しました。彼らはアルゴリズム1および2を使用して、割引MDPから平均報酬MDPへの問題も解決しました。
Main Results
- アルゴリズム1:割引MDP用アルゴリズムであり、特定条件下でε-optimal policyを見つけることが示されている。
- アルゴリズム2:割引MDPから平均報酬MDPへの問題を解決するアルゴリズム。特定条件下でε-optimal policyを見つけることが示されている。
Proof Strategy
Lemma 3から始まり、Lemma 4およびLemma 6など、技術的補助補題が主要結果に導入されます。これらの補助補題はTheorem 1およびTheorem 2の証明に使用されます。
Statystyki
H ≤ D [3]
H ≤ 8τunif [15]