本研究では、物体の機能に基づいた相互作用領域の特定(affordance grounding)を行う新しいアプローチ「AffordanceLLM」を提案している。従来の手法は、限られたトレーニングデータからの学習に依存しており、未知の物体への一般化が困難であった。
AffordanceLLMは、大規模な視覚言語モデル(VLM)が持つ豊富な世界知識を活用することで、このような一般化の問題を解決する。具体的には、VLMのバックボーンを使ってテキストと画像の特徴を統合し、特殊トークンの予測を通じて相互作用領域のヒートマップを生成する。さらに、物体の3D情報も入力として使うことで、物体の機能に基づいた推論を行うことができる。
実験の結果、AffordanceLLMは従来手法と比べて大幅な性能向上を示し、未知の物体や行動に対しても良好な一般化性能を発揮することが確認された。これは、VLMが持つ豊富な知識と3D情報の活用が、物体の機能理解に有効であることを示している。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Shengyi Qian... às arxiv.org 04-19-2024
https://arxiv.org/pdf/2401.06341.pdfPerguntas Mais Profundas