Core Concepts
CatLIPは、画像-テキストデータを用いた前処理を分類問題として再定式化することで、CLIP並の精度を2.7倍高速に達成する。
Abstract
本論文は、大規模な画像-テキストデータを用いた前処理手法CatLIPを提案している。従来のCLIPは、画像とテキストの類似度を最大化するための対比学習を行うが、これは計算コストが高い。一方、CatLIPは画像-テキストデータを分類問題として再定式化することで、計算コストを大幅に削減しつつ、CLIP並の精度を維持することができる。
具体的には以下の通り:
- テキストキャプションから名詞を抽出し、WordNetのシノニム集合(synset)にマッピングすることで、画像-テキストデータに弱教師付きラベルを付与する。
- 画像エンコーダをシノニム集合の分類器として学習することで、対比学習を行わずに前処理を行う。
- 大規模データ(DataComp-1.3B)を用いた実験の結果、CatLIPはCLIPと同等の精度を2.7倍高速に達成できることを示した。
- 物体検出、セマンティックセグメンテーションなどの下流タスクでも、CatLIPは既存手法と同等以上の性能を発揮することを確認した。
以上より、CatLIPは大規模な画像-テキストデータを効率的に活用し、高精度な視覚表現を学習できる前処理手法であると言える。
Stats
CatLIPはCLIPと比べて2.7倍高速に前処理を行うことができる。
CatLIPのViT B/16モデルはImageNet-1kで84.3%、Places365で59.2%の精度を達成した。
CatLIPのViT L/16モデルはImageNet-1kで86.5%、Places365で60.3%の精度を達成した。
CatLIPのViT H/16モデルはImageNet-1kで86.7%、Places365で60.2%の精度を達成した。
Quotes
"CatLIPは、画像-テキストデータを用いた前処理を分類問題として再定式化することで、CLIP並の精度を2.7倍高速に達成する。"
"CatLIPは大規模な画像-テキストデータを効率的に活用し、高精度な視覚表現を学習できる前処理手法である。"