大規模なインターネット画像-テキストデータを活用したビジョン-言語モデルの登場により、従来のImageNetベースのビジョンモデルの限界が明らかになった。本研究では、ビジョン-言語モデルに適したビジョンモデルの設計と評価を行い、提案モデルViTaminが優れた性能を示すことを明らかにする。