Core Concepts
COME-robotは、GPT-4Vの高度な多モーダル推論機能を活用し、ロボットの探索、ナビゲーション、操作のプリミティブアクションを組み合わせることで、未知の実世界環境でのオープンボキャブラリーのモバイル操作を実現する。
Abstract
本研究では、COME-robotと呼ばれる新しい閉ループフレームワークを提案している。COME-robotは、GPT-4Vという最先端の視覚言語基盤モデルと、ロボットの探索、ナビゲーション、操作のためのプリミティブアクションライブラリを統合することで、オープンボキャブラリーのモバイル操作を実現する。
具体的には以下のような特徴がある:
アクションをAPIとして実装し、ロボットの多モーダルフィードバック(観測画像、オブジェクトマップ等)を得られるようにしている
GPT-4Vを「脳」として活用し、言語命令の解釈、環境認識、行動フィードバックの解釈、行動計画の生成を行う
閉ループの仕組みにより、失敗からの回復や状況に応じた適応的な計画変更が可能
実験では、8つの複雑な実世界タスクを設定し、COME-robotが従来手法に比べて大幅な性能向上を示すことを確認した。特に、失敗からの回復能力が高いことが示された。
Stats
探索と操作の組み合わせにより、全体の成功率が25%向上した。
行動ステップ単位の成功率は、COME-robotが123/140、従来手法が98/138と大幅に改善された。
COME-robotの失敗からの回復率は31/38と高い。
Quotes
"COME-robotは、GPT-4Vの高度な多モーダル推論機能を活用し、ロボットの探索、ナビゲーション、操作のプリミティブアクションを組み合わせることで、未知の実世界環境でのオープンボキャブラリーのモバイル操作を実現する。"
"COME-robotの閉ループの仕組みにより、失敗からの回復や状況に応じた適応的な計画変更が可能となる。"