Core Concepts
新しいベイジアン手法は、デモンストレーションに基づいて制約を推論し、従来の方法よりも正確に制約を推定できる。
Abstract
ロボットが安全なポリシーを獲得するためには、環境内の制約を認識することが重要です。本論文では、デモンストレーションからの選好に基づいて制約を推論する新しいベイジアン手法が提案されました。この手法は、新しいポリシーを計算せずに制約を推定し、すべてのデモンストレーション間でペアごとの比較を必要とせずにグループごとのランキングを使用します。さらに、異なる程度の制約違反がある場合にも適応します。実験結果は、提案された手法が従来の制約推論方法よりも正確に様々な厳しさの制約を推定できることを示しています。
Stats
ロボットが安全なポリシーを獲得するためには、環境内の制約を認識することが重要です。
新しいポリシーを計算せずに制約を推定し、すべてのデモンストレーション間でペアごとの比較を必要とせずにグループごとのランキングを使用します。
異なる程度の制約違反がある場合にも適応します。
Quotes
"提案されたBayesianアプローチは、従来の制約推論方法よりも正確に様々な厳しさの制約を推定します。"
"我々は新しいポリシー計算せずして,各反復毎で新規方針計算無しで,ランキング付けられたグループから嗜好上限界値関数評価可能性利用して,提案されたBayesian方法は,各種厳格さ変化した厳格さ,より正確かつ柔軟性高く予測します。"