Core Concepts
LLMとVLMを活用することで、事前のドメイン特化型の学習なしでオープンボキャブラリーのアフォーダンスローカリゼーションを実現できる。
Abstract
本研究では、OVAL-Promptと呼ばれる手法を提案し、LLMとVLMを活用してオープンボキャブラリーのアフォーダンスローカリゼーションを行う。
まず、VLMを使ってRGB画像から物体検出を行い、検出された物体リストをLLMに入力する。LLMはこのリストから、タスクに適した物体を選択し、その物体の関連部位を特定する。次に、VLMはLLMが特定した部位をセグメンテーションし、ロボット操作に活用できるマスクを生成する。
この手法は事前のドメイン特化型の学習を必要とせず、既存のLLMとVLMを活用できるため、柔軟性が高く、新しい物体カテゴリやアフォーダンスにも対応可能である。
実験では、UMDデータセットを用いて定量的な評価を行い、事前学習なしでも既存の教師あり手法と同等の性能を達成できることを示した。さらに、実ロボットを用いた実験では、提案手法がオープンボキャブラリーの物体に対するアフォーダンスベースの操作を可能にすることを実証した。
Stats
物体検出の精度が低いと、アフォーダンスの特定や部位のセグメンテーションに失敗する可能性がある。
VLMが"turner"や"pot"といった物体名を正しく認識できないことが、性能低下の一因となっている。
Quotes
"LLMとVLMを活用することで、事前のドメイン特化型の学習なしでオープンボキャブラリーのアフォーダンスローカリゼーションを実現できる。"
"提案手法がオープンボキャブラリーの物体に対するアフォーダンスベースの操作を可能にすることを実証した。"