핵심 개념
接触ガイダンスを用いた階層的拡散ポリシー(HDP)は、ロボット操作タスクにおいて、従来の模倣学習手法よりも優れた性能、解釈可能性、制御可能性を実現する。
초록
階層的拡散ポリシー:接触ガイダンスによる操作軌跡生成
本論文は、ロボット操作における長距離タスクの学習における課題、特に接触の多いタスクや人間とロボットのインタラクションを含むタスクにおける課題に対処することを目的とする。
本論文では、接触を操作軌跡の生成の指針とする新しい模倣学習手法である階層的拡散ポリシー(HDP)を提案する。HDPは、目標接触を予測するGuiderネットワーク、ロボットの行動シーケンスを予測するActorネットワーク、Q値を予測するCriticネットワークの3つのネットワークで構成される。Guiderは、ロボットが次にオブジェクトを操作する際の接触を3次元情報に基づいて予測する。Actorは、観測と接触の潜在変数に基づいて、高レベルの接触に向けた行動シーケンスを予測する。Criticは、行動が接触に向かって正確に誘導されるように、行動クローニングとQ学習を組み合わせてActorを最適化する。