本論文では、不正確な動力学モデルを使用する際の計画問題に取り組むために、モデル前提条件を効率的に学習するアクティブ学習手法を提案している。
まず、与えられた不正確な動力学モデル ˆ
f(s, a) について、モデル誤差推定器(MDE)を使ってモデル前提条件 pre(ˆ
f) を定義する。これは、モデル予測値ˆ
s と実際の次状態s'の誤差 d(ˆ
s, s') が許容範囲内 dmax に収まる状態-行動の領域を表す。
次に、アクティブ学習アルゴリズムを提案する。各反復で、ロボットは候補軌道を生成し、獲得関数に基づいて最適な軌道を選択して実行する。実行した軌道の観測データ(s, a, s')を用いて、MDEを更新する。この際、軌道の順次依存性や、タスク関連データの優先化といった課題に取り組む。
実験分析では、3つのタスク(凍結グリッドワールド、シミュレーション植物給水、実世界植物給水)で提案手法の性能を評価している。結果は、わずか4回の実世界軌道実行で約80%の改善が得られることを示している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania