Core Concepts
敵対的な自然な画像サンプルを使用してセグメントエニシングモデルの性能を大幅に向上させる
Abstract
本論文は、セグメントエニシングモデル(SAM)の性能を向上させる新しい手法「ASAM」を提案している。
まず、安定拡散モデルを使ってSA-1Bデータセットの一部(1%)から自然で写実的な敵対的サンプルを生成する。
次に、これらの敵対的サンプルを使ってSAMを微調整する。
この手法は、自然言語処理分野で成功した敵対的トレーニングの考え方を応用したものである。
従来の敵対的トレーニング手法とは異なり、ASAMは写実的な敵対的サンプルを生成することで、SAMの一般化性能を大幅に向上させることができる。
実験の結果、ASAMは14種類の多様なデータセットにおいて、SAMの性能を大幅に上回ることが示された。
このように、ASAMは視覚基盤モデルの性能を向上させる新しい手法として貢献するものである。
Stats
SAMの平均IoUは76.7%だが、ASAMは77.6%に向上した。
ASAM は HRSOD-TE データセットで91.3%のIoUを達成し、SAMの88.9%を大幅に上回った。
ASAM は CAMO データセットで73.0%のIoUを達成し、SAMの70.7%を上回った。
Quotes
"敵対的トレーニングは自然言語処理分野で顕著な成功を収めているが、視覚分野ではロバスト性とモデルの性能のトレードオフが課題となっている。"
"本研究では、自然で写実的な敵対的サンプルを生成することで、SAMの一般化性能を大幅に向上させることができた。"