Core Concepts
拡散モデルを用いて生成された文脈に依存したテキスト-視覚リファレンスを活用し、局所的および全体的な類似性を組み合わせることで、訓練を必要とせずに開放語彙セマンティックセグメンテーションを実現する。
Abstract
本論文は、開放語彙セマンティックセグメンテーションのための新しい訓練不要のアプローチ「FreeDA」を提案している。FreeDAは以下の2つのステージから構成される:
オフラインステージ:
大量のキャプションを用いて拡散モデルを活用し、テキスト-視覚リファレンスベクトルのコレクションを生成する。
自己教師あり視覚エンコーダ(DINOv2)を使ってこれらのリファレンスベクトルを構築する。
推論ステージ:
入力画像から局所的特徴(スーパーピクセルベース)と全体的特徴(CLIP)を抽出する。
事前に構築したテキスト-視覚リファレンスコレクションを活用し、局所的および全体的な類似性を組み合わせてセグメンテーションマスクを予測する。
この手法は訓練を必要とせず、5つのベンチマークデータセットで最先端の性能を達成している。拡散モデルの生成能力と自己教師あり視覚特徴の力を組み合わせることで、効率的で頑健なセグメンテーションを実現している。
Stats
拡散モデルを用いて生成された画像の数は大規模である。
抽出されたスーパーピクセルの数は画像サイズに依存する。
事前に構築したテキスト-視覚リファレンスコレクションの大きさは350個である。