核心概念
本稿では、大規模な基礎モデル「セグメント・エニシング・モデル2(SAM 2)」を再学習や変更なしに光線空間に適応させ、高速かつ高品質なセグメンテーションを実現する新しい手法を提案する。
要約
SAM 2を用いた光線空間セグメンテーション
本稿は、事前学習済みの基礎モデルであるSAM 2を光線空間画像に適用し、高速かつ高品質なセグメンテーションを実現する新しい手法を提案する研究論文である。
既存の光線空間セグメンテーション手法の限界を克服し、セマンティックに意味のあるセグメントを生成する。
SAM 2の強力なセマンティック理解能力と光線空間の幾何学的制約を組み合わせることで、高精度かつビュー間で一貫性のあるセグメンテーションを実現する。
初期セグメンテーション: 光線空間画像の中央サブビューに対してSAM 2画像モデルを適用し、ソースオブジェクトマスクを取得する。
視差伝播: エピポーラ幾何学的制約と視差情報を活用し、ソースマスクを他のサブビューに伝播させ、粗いマスク位置予測を得る。
セマンティックオクルージョン: SAM 2の画像エンコーダを用いて、ソースマスクと粗予測マスクの両方に対してピクセル単位のセマンティック潜在特徴ベクトルを推定し、コサイン類似度を用いてオクルージョン領域を特定し、粗予測マスクから削除する。
セグメンテーションのRefinement: 粗マスクの重心点とバウンディングボックスを用いてSAM 2画像モデルを再プロンプトし、各サブビューにおいてRefinementされた予測を取得する。