核心概念
事前学習済みのCLIPモデルとStable Diffusionモデルの利点を組み合わせることで、追加学習なしで、高精度なオープンボキャブラリーセマンティックセグメンテーションを実現できる。
要約
CLIPer: オープンボキャブラリーセマンティックセグメンテーションのためのCLIPの空間表現を階層的に改善する手法
本論文では、オープンボキャブラリーセマンティックセグメンテーションのための新しい学習不要な手法であるCLIPerを提案する。CLIPerは、CLIPの空間表現を階層的に改善することで、高精度なセグメンテーションを実現する。
オープンボキャブラリーセマンティックセグメンテーションは、任意のセマンティックカテゴリに属するオブジェクトをセグメントすることを目的とする。従来のセマンティックセグメンテーションとは異なり、学習時に使用されなかったカテゴリのオブジェクトもセグメントできる必要があるため、より困難なタスクとなっている。
近年、画像レベルの分類タスクで優れたゼロショット性能を示してきたContrastive Language-Image Pre-training (CLIP) モデルを用いたオープンボキャブラリーセマンティックセグメンテーション手法が注目されている。しかし、CLIPは画像レベルのタスクで学習されているため、そのままピクセルレベルのセグメンテーションに適用すると、空間的な一貫性が低いセグメンテーション結果となってしまう。