摘要
本論文は、言語情報を組み込んだ新しい把握生成手法「SemGrasp」を提案している。
- 把握姿勢を方向、様式、微調整の3つの離散トークンに分割し、言語空間と整合させる離散表現を導入した。
- 多様なモダリティ(物体特徴、把握、言語)を統一的な意味空間に整合させるための言語モデルを開発した。
- 把握-言語アラインメントを可能にする大規模データセット「CapGrasp」を構築した。
- 実験の結果、SemGraspは言語指示に整合した自然な把握姿勢を生成できることを示した。
- AR/VRやロボティクスなどの応用例を通して、SemGraspの有用性を実証した。
統計資料
把握姿勢の平均頂点誤差は14.97mm
物体への最大侵入深さは0.46cm
物体との交差体積は2.72cm3
物体の中心変位は平均2.14cm、標準偏差2.37cm