核心概念
人間の好みを柔軟な計画制約として表現し、ユーザーからのフィードバックを活用してロボットがこれらの好みを学習する手法を提案する。
要約
本研究では、ロボットの行動に対する人間の好みを学習する新しい問題設定を提案している。従来の研究では、人間の好みをスカラー関数として表現していたが、本研究では、必須の行動制約(ハード制約)と好ましい行動(ソフト制約)を明確に区別している。
具体的には、ロボットの行動をPDDLを用いて高水準の行動系列として表現し、ユーザーからの比較クエリに基づいて、ソフト制約としての人間の好みを学習する手法を提案している。実験では、Habitat 2.0シミュレータ上の食事準備タスクを用いて、3つの好みの側面(食器棚の状態、食器棚の操作回数、サブタスクの実行順序)を考慮している。
提案手法では、ユーザーの選択に含まれるノイズを考慮し、ノイズの程度に応じた好みの予測モデルを検討している。結果として、ある程度のノイズが含まれるデータを用いて学習したモデルが、完全合理的な選択を前提としたベースラインよりも優れた性能を示すことが分かった。また、ノイズの大きさに応じて、単一の好みターゲットを学習する方法と、好みの確率分布を学習する方法の適切性が異なることが明らかになった。
本研究の成果は、実世界のタスクにおいて、ロボットが人間の好みを柔軟に学習し、適応的な行動を生成する基盤となる。
統計
ロボットの行動系列の長さは10ステップである。
ユーザーの選択に含まれるノイズのパラメータβは、10、1、0.5の3水準を検討している。