Core Concepts
オンライン強化学習アルゴリズムを提案し、安全性制約を満たしながら最適ポリシーを学習する。
Abstract
強化学習はモデル不要の連続意思決定問題を解決する。
安全性制約を守りつつ最適ポリシーを学習するアルゴリズムが提案された。
状態空間を3つのサブセットに分割し、目標セットと禁止セットを設定。
安全基準関数は確率的安全性を評価し、LPベースのアルゴリズムが提案された。
プロキシセットの知識が探索効果を向上させることが示された。
Stats
状態空間:5つの状態(X = {1, 2, 3, 4, 5})
行動:2つ(A = {1, 2})
安全パラメータ:p = 0.5
Quotes
"オンライン強化学習アルゴリズムは、最適ポリシーを学習しつつ安全性制約も満たす。"
"プロキシセットの知識は探索効果向上に貢献する。"