この論文では、EVEという新しいマルチモーダルファウンデーションモデルが紹介されています。EVEは、1つの統一された事前トレーニングタスクであるマスク信号モデリングによってのみ事前トレーニングされたものであり、ビジョンと言語を統合的にエンコードすることが可能です。このアプローチにより、ITCやITMを用いた事前トレーニングよりも3.5倍高速なトレーニングが実現されます。さらに、大きなモデルやより多くの事前トレーニングデータを用いて簡単にスケールアップすることが可能です。様々なビジョン言語下流タスクで既存の手法を上回る性能を示しています。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Junyi Chen,L... klo arxiv.org 03-04-2024
https://arxiv.org/pdf/2308.11971.pdfSyvällisempiä Kysymyksiä