ビジョン-言語モデルの零ショット能力を活用し、触覚データを組み込むことで、視覚のみでは区別が困難な物体を認識する。
大規模なインターネット画像-テキストデータを活用したビジョン-言語モデルの登場により、従来のImageNetベースのビジョンモデルの限界が明らかになった。本研究では、ビジョン-言語モデルに適したビジョンモデルの設計と評価を行い、提案モデルViTaminが優れた性能を示すことを明らかにする。
ビジョン-言語モデルは化合名詞を適切に理解できるか、その能力を評価することが本研究の主な目的である。