本研究では、視覚-触覚ゼロショット物体認識のためのアプローチを提案する。ビジョン-言語モデル(VLM)の零ショット能力を活用し、触覚データから触覚的に類似した物体の名称を推定することで、触覚情報をVLMに組み込む。
提案手法では、触覚データを物体名のアノテーションのみを用いて文章記述に変換するため、新しいアクションやセンサに容易に適応できる。
FoodReplica及びCubeデータセットを用いた評価実験により、提案手法が視覚のみの手法よりも優れた性能を示すことを確認した。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shiori Ueda,... lúc arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09276.pdfYêu cầu sâu hơn