この論文では、EVEという新しいマルチモーダルファウンデーションモデルが紹介されています。EVEは、1つの統一された事前トレーニングタスクであるマスク信号モデリングによってのみ事前トレーニングされたものであり、ビジョンと言語を統合的にエンコードすることが可能です。このアプローチにより、ITCやITMを用いた事前トレーニングよりも3.5倍高速なトレーニングが実現されます。さらに、大きなモデルやより多くの事前トレーニングデータを用いて簡単にスケールアップすることが可能です。様々なビジョン言語下流タスクで既存の手法を上回る性能を示しています。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Junyi Chen,L... um arxiv.org 03-04-2024
https://arxiv.org/pdf/2308.11971.pdfTiefere Fragen