本論文は、最適停止問題を強化学習の観点から探索的に定式化し、その解法を提案している。
まず、従来の最適停止問題では完全な情報が与えられていたのに対し、本論文では意思決定者が未知の環境と相互作用しながら学習する状況を考える。そのため、確率的な停止時間を導入し、パフォーマンス基準にエントロピー正則化項を加えることで、探索と最適化のバランスを取る。
この問題は (n + 1) 次元の退化特異確率制御問題の形をとり、動的計画法を用いて解析的に解くことができる。具体的には、最適制御は反射型の戦略で特徴付けられ、自由境界問題の解として得られる。
さらに、実オプション問題の具体例を通して、提案手法の有効性を示す。具体的には、エントロピー正則化項の影響を分析し、正則化項が消失する極限での最適戦略の収束性を示す。
最後に、提案手法に基づく強化学習アルゴリズムを設計し、その理論的な収束性を示す。アルゴリズムは、モデルパラメータが既知の場合と未知の場合の2つのバージョンから成り、後者では直接的なモデル推定を行わずに頑健性を高めている。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jodi Dianett... alle arxiv.org 10-03-2024
https://arxiv.org/pdf/2408.09335.pdfDomande più approfondite