Kernkonzepte
ウェブ動画から点トラックを予測することで、未知のオブジェクトや環境でも一般的な目標指向型のロボット操作を実現できる。
Zusammenfassung
本研究では、ウェブ上の動画データを活用して、画像中の任意の点の未来の軌跡を予測するモデルを開発した。このモデルを使って、ロボットの環境における物体の3D剛体変換を推定し、オープンループの操作計画を得る。さらに、少量のロボット特有のデータを使って、この計画に対する残差を予測する閉ループのポリシーを学習する。これにより、未知のタスク、オブジェクト、環境においても一般的な目標指向型のロボット操作を実現できる。
具体的には以下の通り:
ウェブ動画から点トラックを予測するモデルを開発した。このモデルは、初期画像、目標画像、初期画像上の任意の点を入力とし、それらの点の未来の軌跡を出力する。
初期画像の深度情報と予測された点トラックを使って、物体の3D剛体変換を推定し、オープンループの操作計画を得る。
少量のロボット特有のデータを使って、この操作計画に対する残差を予測する閉ループのポリシーを学習する。
実際のロボット(Spot)を使った実験では、未知のタスク、オブジェクト、環境においても高い成功率を示した。
Statistiken
初期画像と目標画像を入力とし、任意の点の未来の軌跡を予測できる。
初期画像の深度情報と予測された点トラックから、物体の3D剛体変換を推定できる。
少量のロボット特有のデータ(約400トラジェクトリ)を使って、操作計画に対する残差を予測する閉ループのポリシーを学習できる。
Zitate
"ウェブ動画から点トラックを予測することで、未知のオブジェクトや環境でも一般的な目標指向型のロボット操作を実現できる。"
"少量のロボット特有のデータを使って、操作計画に対する残差を予測する閉ループのポリシーを学習することで、オープンループの操作計画を改善できる。"