Core Concepts
エントロピー正則化を使用した制御ポリシーの正規化は、現実世界のシステムの予測可能性を調整する上で重要である。
Abstract
エントロピー正則化は、現実世界のシステムの予測可能性を調整するために重要。
IMDPs(インターバルマルコフ決定過程)におけるエントロピー正規化の効果的な最小化手法が提案されている。
最適な確定ポリシーが存在し、値反復アルゴリズムによって計算される。
アルゴリズムは各ステップで複数の凸計画問題を解く。
数値例を通じて、IMDPsにおけるエントロピー罰則の利点が示されている。
Stats
この記事では重要な数字やメトリクスは含まれていません。