ビジョン言語モデルの設計における重要な決定事項は実験的に正当化されることが少ないため、モデルパフォーマンスの向上につながる選択を特定するのが困難である。本研究では、事前学習モデル、アーキテクチャ、データ、トレーニング手法に関する広範な実験を行い、ビジョン言語モデルの構築に関する重要な洞察を得る。