Core Concepts
確率的強化学習ポリシーの安全性を検証するための手法を提案する。この手法は、強化学習アルゴリズムと環境がマルコフ性を満たす限り、任意の強化学習アルゴリズムに対応可能である。
Abstract
本論文では、確率的強化学習ポリシーの安全性を検証するための手法を提案する。この手法は、マルコフ決定過程、訓練済みの強化学習ポリシー、確率的計算木論理(PCTL)式を組み合わせて、正式なモデルを構築し、モデルチェッカーStormを使って検証を行う。
提案手法は以下の3つの入力を使う:
強化学習環境をモデル化したマルコフ決定過程
訓練済みの強化学習ポリシー
安全性の測定に使用するPCTL式
まず、訓練済みポリシーによって到達可能な部分のみからマルコフ決定過程を構築する。次に、この部分的なマルコフ決定過程をマルコフ連鎖に変換する。最後に、Storm モデルチェッカーを使って、構築したマルコフ連鎖の安全性を検証する。
提案手法は、複数のベンチマーク環境で評価され、従来手法と比較されている。結果は、提案手法が確率的強化学習ポリシーの検証に適していることを示している。
Stats
強化学習エージェントは、環境との相互作用を通じて報酬を最大化するように学習する。
報酬は複雑な安全要件を表現するのが難しいため、モデルチェックが必要となる。
Quotes
"確率的強化学習ポリシーの安全性を検証するための手法を提案する。この手法は、強化学習アルゴリズムと環境がマルコフ性を満たす限り、任意の強化学習アルゴリズムに対応可能である。"
"提案手法は、複数のベンチマーク環境で評価され、従来手法と比較されている。結果は、提案手法が確率的強化学習ポリシーの検証に適していることを示している。"