本研究は、ビジョン-言語モデル(VLM)の登場により変化したビジョンモデルの設計と評価について取り組んでいる。
まず、大規模なDataComp-1Bデータセットを用いて、従来のImageNetベースのビジョンモデル(ViT、ConvNeXt、CoAtNet)の性能を再評価した。その結果、以下の知見を得た:
これらの知見を踏まえ、ViTaminと呼ぶ新しいビジョンモデルを提案した。ViTaminは3段階のハイブリッド構造で、最終段にTransformerブロックを持つことで、データとモデルのスケーラビリティを高めている。
評価の結果、ViTamin-Lは同等のOpenCLIP設定下でViT-L/14を2.0%上回る ImageNetゼロショット精度を達成した。さらに、ViTamin-XLは82.9%のImageNetゼロショット精度を達成し、10倍多くのパラメータを持つEVA-Eを上回った。
また、ViTaminは物体検出、セマンティックセグメンテーション、大規模マルチモデルタスクなど、VLM固有の下流タスクでも優れた性能を示した。
本研究の成果は、VLMにおけるビジョンモデルの設計の限界を明らかにし、より高度なモデル開発を促すことが期待される。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jienneg Chen... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02132.pdfDeeper Inquiries