本論文では、Segment Anything Model (SAM)の機能を拡張した新しいモデルVRP-SAMを提案している。VRP-SAMは、参照画像の注釈(ポイント、スクリブル、バウンディングボックス、マスク)を利用して、ターゲット画像内の同一セマンティクスのオブジェクトをセグメンテーションできる。
具体的には、VRP-SAMは参照画像の注釈情報をエンコードするVRP(Visual Reference Prompt)エンコーダを導入している。VRPエンコーダは、参照画像と
ターゲット画像の特徴を同一の潜在空間にマッピングし、参照画像の注釈情報に基づいてプロンプトを生成する。このプロンプトをSAMのマスクデコーダに入力することで、ターゲット画像内の同一セマンティクスのオブジェクトをセグメンテーションできる。
VRP-SAMは、SAMの既存のプロンプト形式の限界を克服し、参照画像の注釈を利用することで、効率的かつ汎用的なセグメンテーションを実現する。また、メタラーニング手法を導入することで、未知のオブジェクトや異なるドメインにおいても高い汎化性を発揮する。
実験結果から、VRP-SAMは従来手法を大きく上回る性能を示し、特に未知のオブジェクトやドメイン変化に対する優れた一般化能力が確認された。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania