核心概念
大規模なインターネット画像-テキストデータを活用したビジョン-言語モデルの登場により、従来のImageNetベースのビジョンモデルの限界が明らかになった。本研究では、ビジョン-言語モデルに適したビジョンモデルの設計と評価を行い、提案モデルViTaminが優れた性能を示すことを明らかにする。
要約
本研究は、ビジョン-言語モデル(VLM)の登場により変化したビジョンモデルの設計と評価について取り組んでいる。
まず、大規模なDataComp-1Bデータセットを用いて、従来のImageNetベースのビジョンモデル(ViT、ConvNeXt、CoAtNet)の性能を再評価した。その結果、以下の知見を得た:
- データスケールの増加は全てのビジョンモデルの性能を向上させるが、ViTがモデルパラメータのスケーラビリティで優れている。
- 特徴マップの最終解像度が予測性能に影響する。パッチサイズの小さいViTが優れる。
- ハイブリッドモデルのCoAtNetが一般的に最も良い性能を示すが、大規模データへのスケーリングが難しい。
これらの知見を踏まえ、ViTaminと呼ぶ新しいビジョンモデルを提案した。ViTaminは3段階のハイブリッド構造で、最終段にTransformerブロックを持つことで、データとモデルのスケーラビリティを高めている。
評価の結果、ViTamin-Lは同等のOpenCLIP設定下でViT-L/14を2.0%上回る ImageNetゼロショット精度を達成した。さらに、ViTamin-XLは82.9%のImageNetゼロショット精度を達成し、10倍多くのパラメータを持つEVA-Eを上回った。
また、ViTaminは物体検出、セマンティックセグメンテーション、大規模マルチモデルタスクなど、VLM固有の下流タスクでも優れた性能を示した。
本研究の成果は、VLMにおけるビジョンモデルの設計の限界を明らかにし、より高度なモデル開発を促すことが期待される。
統計
ViTamin-Lは同等のOpenCLIP設定下でViT-L/14を2.0%上回るImageNetゼロショット精度を達成した。
ViTamin-XLは82.9%のImageNetゼロショット精度を達成し、10倍多くのパラメータを持つEVA-Eを上回った。
ViTaminは物体検出タスクでViT-L/14を3.1%、セマンティックセグメンテーションタスクで2.6%上回った。
引用
"VLMsは強力で一般化可能な特徴表現を提供するが、一方で従来のImageNetベンチマークで提案された様々なタイプのネットワークはほとんど研究されていない。"
"現在のVLMベンチマークは主にゼロショット分類/検索タスクに焦点を当てており、オープンボキャブラリーの密な予測タスクや大規模マルチモーダルモデル(LMM)の評価には大きな隙間がある。"