Core Concepts
セグメントエニシングモデル(SAM)は、大規模なデータセットを使用して事前に訓練されているが、新しいドメインやオブジェクトタイプに適用すると大きな失敗率を示す。本研究では、ユーザーの対話を活用してSAMを即時に適応させる手法を提案する。
Abstract
本研究では、セグメントエニシングモデル(SAM)の性能を、一般的な消費者画像とは異なるさまざまなデータセットで評価した。その結果、SAMは一般的な消費者画像とは大きく異なるドメインやオブジェクトタイプに適用すると、かなりの失敗率を示すことが明らかになった。
そこで本研究では、ユーザーの対話を活用してSAMを即時に適応させる手法を提案した。具体的には以下の3つの手法を検討した:
クリックの情報を使ってその都度モデルを適応させる手法(Click Adaptation)
1枚の画像の注釈が完了した後に、蓄積されたクリック情報を使ってモデルを適応させる手法
最終的に得られた注釈マスクを使ってモデルを適応させる手法(Result Mask)
これらの手法を組み合わせて適用することで、様々なデータセットにおいて失敗率を大幅に低減できることを示した。特に、Result Maskを活用し、マスクの境界部分を適切に処理することが重要であることが分かった。
提案手法は計算コストが低く、即時の適応が可能であるため、新しいドメインやオブジェクトタイプに対してSAMの適用範囲を大幅に広げることができる。
Stats
一般的な消費者画像とは異なるデータセットでは、SAMの失敗率が最大72.6%に達する。
提案手法により、失敗率を最大48.1%相対的に低減できる。
提案手法により、クリック数を最大2.754回削減できる。
Quotes
"Though being trained extensively and with the explicit purpose of serving as a foundation model, we show significant limitations of SAM when being applied for interactive segmentation on novel domains or object types."
"The presented method causes a relative reduction of up to 48.1% in the FR20@85 and 46.6% in the FR30@90 metrics."