Core Concepts
データの量と質、アーキテクチャの選択、トレーニング戦略の選択が、CLIP
モデルのパフォーマンスに大きな影響を与える。
Abstract
本論文は、CLIPモデルのパフォーマンスを制限された計算リソースの下で最適化する方法を探る。
データ、アーキテクチャ、トレーニング戦略の3つの側面から包括的に分析を行っている。
データの側面では、高品質なデータの重要性を示し、小さいが高品質なデータセットが大きな低品質なデータセットよりも優れた性能を発揮することを明らかにした。
また、データセットサイズと性能の関係を分析し、小さいモデルは小さいデータセットに適しているが、大きなデータセットでは大きなモデルが優れていることを示した。
アーキテクチャの側面では、CNNベースとViTベースのアーキテクチャを比較し、データセットサイズに応じて適切なアーキテクチャを選択する必要があることを明らかにした。
小さいデータセットではCNNが優れ、大きなデータセットではViTが優れることを示した。
トレーニング戦略の側面では、SLIP、FLIP、CLIP、CLIP+Data Augmentationの4つの手法を比較した。
計算リソースが限られる場合はSLIPが優れ、リソースが潤沢な場合はCLIPとFLIPが優れることを示した。
また、CLIP+Data Augmentationが計算コストをかけずに高性能を達成できることを明らかにした。
以上の分析結果は、実用的なCLIPモデルの構築に役立つ重要な知見を提供している。
Stats
データセットサイズが大きくなるほど、ゼロショット精度が向上する。
データセットサイズが25Mの場合、エポック数を増やしても精度向上は限定的だが、400Mの場合はエポック数を増やすと精度が大きく向上する。
データの質が高い上位40%のデータセットは、全体のデータセットよりも優れた性能を発揮する。
Quotes
"データの量だけでなく、データの質も重要である。高品質なデータセットは、大量のデータセットよりも優れた性能を発揮する。"
"CNNベースのアーキテクチャは小さいデータセットで優れ、ViTベースのアーキテクチャは大きなデータセットで優れる。"
"CLIP+Data Augmentationは計算コストをかけずに高性能を達成できる。"