Centrala begrepp
物体の幾何学的特徴を分解し、大言語モデルを用いて各部品の意味と把握タスクへの適合性を推論することで、ゼロショットでタスク指向型の把握を実現する。
Sammanfattning
本研究では、ShapeGraspと呼ばれる新しいアプローチを提案している。ShapeGraspは、物体の幾何学的特徴を分解し、基本的な幾何学形状のグラフ構造で表現する。その上で、大言語モデルを用いて各部品の意味的な解釈と、タスクに適した部品の選択を行う。
具体的には以下の手順で動作する:
- 入力画像から物体のマスクを抽出し、2Dと3Dの二つの方法で物体を凸包分解する。適切な分解方法を自動的に選択する。
- 分解された各部品を基本的な幾何学形状(三角形、四角形、円、楕円)で近似し、それらの関係をグラフ構造で表現する。
- 大言語モデルを用いて、物体名とタスクの情報から、各部品の意味的な解釈を行う。
- さらに大言語モデルを用いて、各部品のタスクへの適合性を推論し、最適な把握部位を選択する。
- 選択された部位の重心と主成分を計算し、ロボットハンドの把握位置と姿勢を決定する。
この一連の処理により、ゼロショットでタスク指向型の把握を実現している。実験では、従来手法と比較して高い把握成功率を示している。また、物体の形状情報とタスクの関係性を大言語モデルが推論する過程を分析し、その有効性を示している。
Statistik
物体を構成する部品の数は10以下が多い
物体の深度情報の信頼性が85%以上あれば3D分解を、それ以下なら2D分解を選択する
Citat
"物体の幾何学的特徴を分解し、大言語モデルを用いて各部品の意味と把握タスクへの適合性を推論することで、ゼロショットでタスク指向型の把握を実現する。"
"実験では、従来手法と比較して高い把握成功率を示している。"