この論文では、EVEという新しいマルチモーダルファウンデーションモデルが紹介されています。EVEは、1つの統一された事前トレーニングタスクであるマスク信号モデリングによってのみ事前トレーニングされたものであり、ビジョンと言語を統合的にエンコードすることが可能です。このアプローチにより、ITCやITMを用いた事前トレーニングよりも3.5倍高速なトレーニングが実現されます。さらに、大きなモデルやより多くの事前トレーニングデータを用いて簡単にスケールアップすることが可能です。様々なビジョン言語下流タスクで既存の手法を上回る性能を示しています。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Junyi Chen,L... lúc arxiv.org 03-04-2024
https://arxiv.org/pdf/2308.11971.pdfYêu cầu sâu hơn