核心概念
CLIP の大規模で多様なデータセットを使った学習は、属性とオブジェクトの分解可能な表現を学習し、合成一般化を向上させる。
要約
本研究は、CLIP の合成一般化能力を評価するために、属性とオブジェクトの組み合わせが CLIP の学習データにない新しい画像データセット「ImageNet-AO」を作成しました。
様々な CLIP モデルを ImageNet-AO で評価した結果、大規模で多様なデータセットを使って学習したCLIPモデルは、小規模データセットを使ったモデルに比べて大幅に高い合成一般化性能を示しました。
この結果は、CLIP の合成一般化能力には学習データの規模と多様性、特に言語情報の多様性が重要であることを示唆しています。
大規模で多様なデータセットを使うことで、属性とオブジェクトの相互情報量が低下し、分解可能な表現が学習されることが、CLIP の合成一般化性能向上につながっていると考えられます。
また、言語情報の監督が CLIP の合成一般化を向上させることも確認されました。
統計
大規模データセットを使って学習したCLIPモデルは、小規模データセットを使ったモデルに比べて、ImageNet-AOデータセットの正解率が1桁以上高い。
監督学習モデルと比べても、CLIP モデルの方が ImageNet-AO データセットの正解率が高い。
引用
大規模で多様なデータセットを使って学習したCLIPモデルは、小規模データセットを使ったモデルに比べて、ImageNet-AOデータセットの正解率が1桁以上高い。
監督学習モデルと比べても、CLIP モデルの方が ImageNet-AO データセットの正解率が高い。