VIT-LENSは、事前学習済みのViTを活用して、3D点群、深度、音声、触覚、EEGなどの多様なモダリティの表現を効率的に学習する。これにより、モダリティ間の整合的な表現を得ることができ、様々な理解タスクで優れた性能を発揮する。さらに、VIT-LENSをマルチモーダルファウンデーションモデルに統合することで、モダリティを問わない画像生成や質問応答などの新しい機能を実現できる。