本研究では、人間の動画から視覚的に器用な操作を学習するための新しいフレームワーク「ViViDex」を提案している。
まず、人間の動画から手と物体の参照軌道を抽出する。これらの軌道は視覚的に自然ですが物理的に現実的ではないため、強化学習を用いて状態ベースのポリシーを最適化し、物理的に現実的な軌道を生成する。
次に、最適化された状態ベースのポリシーから成功したエピソードをロールアウトし、物体の状態情報を必要とせずにビジョンベースのポリシーを学習する。ポイントクラウドを異なる座標系に変換することで、ハンドと物体の相互作用を効果的にキャプチャし、ビジョンベースのポリシーの性能を大幅に向上させる。
実験では、3つの器用な操作タスク(移動、注ぐ、入れる)で提案手法の有効性を示している。状態ベースのポリシーは従来手法を大幅に上回る性能を示し、ビジョンベースのポリシーも物体の状態情報を必要とせずに高い精度を達成している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問