核心概念
ビジョン-言語モデルの零ショット能力を活用し、触覚データを組み込むことで、視覚のみでは区別が困難な物体を認識する。
摘要
本研究では、視覚-触覚ゼロショット物体認識のためのアプローチを提案する。ビジョン-言語モデル(VLM)の零ショット能力を活用し、触覚データから触覚的に類似した物体の名称を推定することで、触覚情報をVLMに組み込む。
提案手法では、触覚データを物体名のアノテーションのみを用いて文章記述に変換するため、新しいアクションやセンサに容易に適応できる。
FoodReplica及びCubeデータセットを用いた評価実験により、提案手法が視覚のみの手法よりも優れた性能を示すことを確認した。
統計資料
触覚センサの出力は96次元のベクトルである。
物体に対して10回の押し付け動作を行い、その際の触覚データを収集した。
収集した触覚データは1秒間の時系列データであり、サンプリング周波数は25Hzである。
引述
"触覚知覚は、特に視覚的に類似した物体を区別する際に重要である。"
"ビジョン-言語モデル(VLM)の零ショット能力を活用し、触覚データから触覚的に類似した物体の名称を推定することで、触覚情報をVLMに組み込む。"
"提案手法では、触覚データを物体名のアノテーションのみを用いて文章記述に変換するため、新しいアクションやセンサに容易に適応できる。"