toplogo
로그인

異なるロボットの制御を学習するための異質クロスエンボディメント学習の限界


핵심 개념
異なるロボットエンボディメントに対して1つのポリシーを訓練し、実世界で様々なタスクを達成する能力を示す。
초록
近年のロボティクスと模倣学習において、大規模な基盤モデルのトレーニングが進歩し、多様なエンボディメント間でデータを活用することで、異なるドメイン間で知識転送が可能であることが示されています。本研究では、異質エンボディメントに焦点を当て、ナビゲーションと操作性のデータを組み合わせて1つの目標指向ポリシーを訓練しました。このポリシーは、ロボットアーム、ドローン、四足歩行ロボット、移動台座などさまざまなエンボディメントを制御する能力を持ちます。さらに、ナビゲーションデータと操作性データの共同トレーニングにより成功率が20%向上しました。これは、異なるエンボディメント間で収集されたデータが有益であることを示唆しています。
통계
20%以上の成功率向上 ナビゲーションと操作性データの共同トレーニングにより5−7%改善 操作性ポリシーは新たなロボットでも50%成功率達成
인용구
"Large-scale robotic policies can benefit from data collected across various embodiments." "Training a single goal-conditioned policy that is capable of controlling robotic arms, quadcopters, quadrupeds, and mobile bases." "Our results provide evidence that large-scale robotic policies can benefit from data collected across various embodiments."

더 깊은 질문

どうしてナビゲーションと操作性間で正転送が期待されるか?

異なるロボットのタスクを統一的な目標達成フレームワークに投影することにより、ナビゲーションデータから得られた情報は、マニピュレーションポリシーが目標画像との関係を理解するのに役立ちます。例えば、「Cluttered Grasp」タスクでは、ロボットは訓練データ内で見た5つのオブジェクトから正しいものを選ぶ必要があります。このような空間的推論を必要とするタスクでは、ナビゲーションデータがポリシーの中間表現を規則化し、現在地点と目標画像間の相対的な空間情報を捉えることが重要です。 また、「Shelf Manipulation」タスクでは棚から正しいオブジェクトを取り出す必要があります。この場合も衝突回避やオブジェクトまでの距離判断が求められるため、地上ナビゲーションにおける衝突回避課題と基本的に同じです。オブジェクトまでの距離判断はテーブル上マニピュレーションにおけるテーブル高さ変更への耐性試験でもあるため、以前の研究でも失敗原因として特定されています。 したがって、ナビゲーションデータはマニピュレートエージェントに対して有益な情報提供し、異なるロボット形態間で学習された行動パターンや知識を効果的に転送する可能性があることから、ナビゲーションと操作性間で正転送が期待されます。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star