Core Concepts
CLIPは大規模な事前学習を通して、物体の機能性に関する知識を暗黙的に獲得している。本研究では、この知識を活用して物体の機能性を特定する手法を提案する。
Abstract
本研究は、大規模な視覚言語モデルCLIPが物体の機能性に関する知識を暗黙的に獲得していることに着目している。従来の物体の機能性(アフォーダンス)理解手法は、教師あり学習や弱教師あり学習に依存しており、限定された行動セットしか扱えないという課題があった。
本研究では、CLIPの持つ視覚言語の関係性を活用し、物体の機能性を特定する手法「AffordanceCLIP」を提案する。具体的には、CLIPの画像エンコーダの中間特徴量に注目し、ピラミッド型のネットワークを導入することで、局所的な特徴を保持しつつ、言語情報との整合性を維持する。この手法により、CLIPが持つ物体の機能性に関する暗黙知を引き出し、教師データを必要とせずに、任意の行動プロンプトに対して物体の機能性を特定できる。
実験の結果、提案手法は教師あり手法や弱教師あり手法と比較して遜色ない性能を示し、さらに学習パラメータ数が大幅に少ないことが確認された。また、定義済みの行動セットに限定されず、任意の行動プロンプトに対応できる柔軟性も示された。
Stats
物体の機能性を特定する際の重要な指標は以下の通りです。
予測結果と正解の分布の差異を表すKullback-Leibler Divergence (KLD)
予測結果と正解の重複度合いを表すSimilarity (SIM)
予測結果と正解の対応度合いを表すNormalized Scanpath Saliency (NSS)