Matthew ZurekとYudong Chenは、平均報酬マルコフ決定過程(MDP)におけるε-最適ポリシーの学習に関するサンプル複雑性に焦点を当てています。この分野では未解決であったが、彼らはH(バイアス関数のスパン)とSA(状態行動空間の基数)に基づいた結果を提供しました。彼らはアルゴリズム1および2を使用して、割引MDPから平均報酬MDPへの問題も解決しました。
Lemma 3から始まり、Lemma 4およびLemma 6など、技術的補助補題が主要結果に導入されます。これらの補助補題はTheorem 1およびTheorem 2の証明に使用されます。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Matthew Zure... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2311.13469.pdfDeeper Inquiries