Khái niệm cốt lõi
逆強化学習における報酬関数の効果的な生成と特徴選択の方法を提案し、複数のタスクでの効果を示す。
Tóm tắt
逆強化学習(IRL)は報酬関数を専門家のデモンストレーションから学習する手法であり、手動で報酬仕様を指定する手間を省きつつ、強化学習の汎化能力を保持する。
特徴選択は候補セット内のトラジェクトリ確率と特徴期待値の相関を活用して行われる。
多項式基底関数が有効な候補セットとして提案され、統計的モーメントの一致性が示されている。
ポリシー抽出にはPPOやSACアルゴリズムが使用され、提案手法は他のベースライン手法よりも優れたパフォーマンスを示している。
Thống kê
P(τi)|θ) = eθT ϕ(τi) Z(θ)
log P(τi)|θ) ∝θT ϕ(τi)
dim(Φ) = d + d(d + 1)/2 where d = dim(s)
Trích dẫn
"Feature selection is then performed for the candidates by leveraging the correlation between trajectory probabilities and feature expectations."
"Our method attains comparable performance levels using significantly fewer features."
"The proposed method achieves sufficient benchmark results in all tasks."