核心概念
EVEは、マスク予測とモダリティ意識MoEを使用した効率的なビジョン言語事前トレーニングを提供します。
摘要
この論文では、EVEという新しいマルチモーダルファウンデーションモデルが紹介されています。EVEは、1つの統一された事前トレーニングタスクであるマスク信号モデリングによってのみ事前トレーニングされたものであり、ビジョンと言語を統合的にエンコードすることが可能です。このアプローチにより、ITCやITMを用いた事前トレーニングよりも3.5倍高速なトレーニングが実現されます。さらに、大きなモデルやより多くの事前トレーニングデータを用いて簡単にスケールアップすることが可能です。様々なビジョン言語下流タスクで既存の手法を上回る性能を示しています。
統計資料
3.5倍高速なトレーニング速度
状態-of-the-artパフォーマンスの達成
ビジョン言語下流タスクでの優れた成果
4M枚の画像および10M枚の画像テキストペアから成る公開データセットで事前トレーニング実施
EVE-Large16MはSimVLM-Hugeよりも優れたパフォーマンスを示す
引述
"Despite its simplicity, EVE achieves state-of-the-art performance on various vision-language downstream tasks."
"EVE can greatly enhance pre-training speed, as shown in Figure 1."
"EVE outperforms existing methods in various Vision Language downstream tasks."