Core Concepts
CLIP の画像-テキスト整列を活用し、単一モーダルバックボーンの限界を克服し、参照画像セグメンテーションの精度を大幅に向上させる。
Abstract
本論文は、CLIP の画像-テキスト整列を参照画像セグメンテーション (RIS) に効果的に適用する新しいフレームワーク RISCLIP を提案している。
まず、CLIP の単一モーダル特徴抽出を改善するために、Cross-modal Feature Extraction (CFE) モジュールを導入する。CFE モジュールは、画像と言語の特徴を候補領域で整列させる。
次に、Shared-space Knowledge Exploitation (SKE) モジュールを導入し、CLIP の画像-テキスト共有埋め込み空間に蓄積された豊富な整列知識を活用する。これにより、複雑な表現を持つ対象物を正確に識別できる。
CFE と SKE モジュールにより、CLIP の初期的な画像-テキスト整列を精密な領域検出に進化させることができる。最後に、単純なデコーダを用いて、パッチレベルの検出結果をピクセルレベルの予測に変換する。
RISCLIP は、3つの主要なRISベンチマークで最先端の性能を達成し、特に複雑な表現を扱う RefCOCOg データセットで優れた結果を示している。これは、CLIP ベースのアプローチがRISに適していることを示している。
Stats
画像の一部が隠れていたり、ぼやけていても、対象物を正確に検出できる。
複雑な表現を持つ対象物も正確に識別できる。