Keskeiset käsitteet
不正確な動力学モデルを使用する際の実用的な戦略は、モデルが正確な領域でのみ計画を制限することである。このモデル前提条件を定義するために、経験的な実世界の軌道データが重要である。しかし、実世界のデータを収集するのは高コストであり危険である。このため、本論文では、不正確な事前指定された動力学モデルのためのモデル前提条件を学習するためのアクティブ学習アルゴリズムを提案する。
Tiivistelmä
本論文では、不正確な動力学モデルを使用する際の計画問題に取り組むために、モデル前提条件を効率的に学習するアクティブ学習手法を提案している。
まず、与えられた不正確な動力学モデル ˆ
f(s, a) について、モデル誤差推定器(MDE)を使ってモデル前提条件 pre(ˆ
f) を定義する。これは、モデル予測値ˆ
s と実際の次状態s'の誤差 d(ˆ
s, s') が許容範囲内 dmax に収まる状態-行動の領域を表す。
次に、アクティブ学習アルゴリズムを提案する。各反復で、ロボットは候補軌道を生成し、獲得関数に基づいて最適な軌道を選択して実行する。実行した軌道の観測データ(s, a, s')を用いて、MDEを更新する。この際、軌道の順次依存性や、タスク関連データの優先化といった課題に取り組む。
実験分析では、3つのタスク(凍結グリッドワールド、シミュレーション植物給水、実世界植物給水)で提案手法の性能を評価している。結果は、わずか4回の実世界軌道実行で約80%の改善が得られることを示している。
Tilastot
凍結グリッドワールドのタスクでは、15秒で1回の軌道実行が可能である。
シミュレーション植物給水のタスクでは、1.5分で1回の軌道実行が可能である。
実世界植物給水のタスクでは、3分で1回の軌道実行が可能である。
Lainaukset
"不正確な動力学モデルを使用する際の実用的な戦略は、モデルが正確な領域でのみ計画を制限することである。"
"経験的な実世界の軌道データが、モデル前提条件を定義するために重要である。"
"本論文では、不正確な事前指定された動力学モデルのためのモデル前提条件を学習するためのアクティブ学習アルゴリズムを提案する。"