核心概念
探索仮定を必要とせず、ϵに関する依存度を改善した新しい模倣学習アルゴリズムを提案する。
摘要
本論文では、線形MDPにおける模倣学習のための新しいアルゴリズムILARLを提案しています。従来の手法では、探索に関する強い仮定が必要でしたが、ILARLではこの仮定を必要とせず、ϵに関する依存度も改善しています。
具体的には以下のような特徴があります:
- 探索に関する仮定を必要としない
- ϵに関する依存度をO(ϵ^-5)からO(ϵ^-4)に改善
- 無regret アルゴリズムを組み合わせることで、模倣学習とオンラインMDP学習の接続を示す
また、有限時間設定でさらに強い結果を得るアルゴリズムBRIGも提案しています。
数値実験では、ILARLが他の手法と比べて専門家軌道数とMDP軌道数の両方で効率的であることを示しています。
統計資料
提案手法ILARLは、探索仮定を必要とせず、ϵに関する依存度をO(ϵ^-5)からO(ϵ^-4)に改善している。
有限時間設定でさらに強い結果を得るアルゴリズムBRIGでは、MDP軌道数をO(H^4d^3ϵ^-2)まで改善している。
引述
"探索に関する仮定を必要とせず、ϵに関する依存度を改善した新しい模倣学習アルゴリズムを提案する。"
"無regret アルゴリズムを組み合わせることで、模倣学習とオンラインMDP学習の接続を示す。"
"数値実験では、ILARLが他の手法と比べて専門家軌道数とMDP軌道数の両方で効率的であることを示している。"