本研究では、視覚-触覚ゼロショット物体認識のためのアプローチを提案する。ビジョン-言語モデル(VLM)の零ショット能力を活用し、触覚データから触覚的に類似した物体の名称を推定することで、触覚情報をVLMに組み込む。
提案手法では、触覚データを物体名のアノテーションのみを用いて文章記述に変換するため、新しいアクションやセンサに容易に適応できる。
FoodReplica及びCubeデータセットを用いた評価実験により、提案手法が視覚のみの手法よりも優れた性能を示すことを確認した。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Shiori Ueda,... às arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09276.pdfPerguntas Mais Profundas