ビジョン-言語モデルの零ショット能力を活用し、触覚データを組み込むことで、視覚のみでは区別が困難な物体を認識する。


coremsg

視覚-触覚ゼロショット物体認識のためのビジョン-言語モデル


大規模なインターネット画像-テキストデータを活用したビジョン-言語モデルの登場により、従来のImageNetベースのビジョンモデルの限界が明らかになった。本研究では、ビジョン-言語モデルに適したビジョンモデルの設計と評価を行い、提案モデルViTaminが優れた性能を示すことを明らかにする。



ViTamin: 大規模ビジョン-言語モデルのための効率的なビジョンモデルの設計



ビジョン-言語モデルは化合名詞を適切に理解できるか、その能力を評価することが本研究の主な目的である。