核心概念
ユーザーからの自然言語命令に基づいて、2本の腕を協調的に操作して長期的な課題を遂行する具現化されたAIシステムを提案する。セマンティックおよび物理的な安全性を念頭に置いたモジュール式のアーキテクチャにより、人間との近接作業を可能にする。
要約
本論文では、ユーザーからの自然言語命令に基づいて2本の腕を協調的に操作し、長期的な課題を遂行する具現化されたAIシステムを提案する。
このシステムは以下のモジュールから構成される:
大規模言語モデル(LLM)を用いたタスク計画モジュール
ユーザーの命令を解釈し、ロボットが実行可能なコマンドに変換する
視覚言語モデル(VLM)とポイントクラウド変換器(PCT)を用いた知覚モジュール
カメラ入力から物体の位置や姿勢を検出する
双腕操作スキルライブラリ
把持、移動、ハンドオーバーなどの基本動作を実装
軌道最適化と順応性の高いコントローラを備えた制御モジュール
安全性と人間との近接作業を考慮した動作生成
このモジュラー構造により、セマンティックおよび物理的な安全性を確保しつつ、ゼロショットでの課題遂行を実現している。具体的には、ビン分類、ボトルのキャップ開け、ゴミ箱への投入などの課題に適用し、その有効性を示した。
統計
双腕ビン分類タスクでは、27件中21件(77.7%)が正常に実行された。
ボトルのキャップ開けタスクでは、12件中7件(58.3%)が正常に実行された。
ゴミ箱への投入タスクでは、16個のゴミ品目中9個(56.25%)が正常に処理された。