Core Concepts
専門家の行動を観察することで、報酬モデルだけでなくコスト制約モデルも学習し、コスト制約を満たしつつ専門家の行動を模倣する手法を提案する。
Abstract
本論文では、複雑な計画・スケジューリング問題を解決する新しい手法として、模倣学習に着目している。従来の模倣学習手法は、報酬モデルや行動ポリシーを直接学習することで専門家の行動を模倣するが、現実世界の多くの問題では、専門家の行動がコスト制約にも依存している。
本論文では、コスト制約下での模倣学習問題を定式化し、以下の3つの手法を提案している:
ラグランジュ法に基づく手法
メタグラディエントを用いて報酬と制約違反のトレードオフを最適化する手法
コスト違反に基づく交互勾配更新手法
これらの手法は、Safety Gymやムジョコ環境での実験で、従来手法に比べて優れた性能を示している。特に、メタグラディエント手法が全体的に最も良い結果を得ている。
Stats
専門家の平均エピソードコストはタスクによって51.1 ± 3.36から653.2 ± 78.82の範囲にある。
提案手法のCCILは、専門家のコストを1.54 ± 1.32以下に抑えることができた。
提案手法のMALMは、専門家のコストを0以下に抑えることができた。
Quotes
"専門家の行動は報酬モデルだけでなくコスト制約モデルにも依存している。"
"コスト制約下での模倣学習問題を解決するために、ラグランジュ法、メタグラディエント、コスト違反に基づく交互勾配更新の3つの手法を提案する。"
"提案手法は、従来手法に比べて優れた性能を示し、特にメタグラディエント手法が全体的に最も良い結果を得ている。"