本論文は、マスク画像モデリング(MIM)を用いることで、半教師ありセマンティックセグメンテーションの精度を向上させる新しい手法を提案している。セマンティックセグメンテーションは、画像内の各ピクセルにカテゴリラベルを割り当てるコンピュータビジョンの基礎的なタスクである。教師あり学習では高精度なセグメンテーションが可能だが、大量のピクセル単位の手動ラベルが必要となる。これを軽減するために、少量のラベル付きデータと大量のラベルなしデータを用いる半教師ありセマンティックセグメンテーションが提案されている。
本論文では、MIMの成功に着想を得て、この手法を半教師ありセマンティックセグメンテーションに導入している。MIMは、マスクされた画像のマスク部分と可視部分の関係性を学習することで知識を獲得する。この洞察を継承・拡張し、ピクセル、特徴量、セマンティックの各空間でマスク誘導学習を行うことで、MIMを半教師ありセマンティックセグメンテーションに効果的に統合している。
提案手法であるS4MIMは、エンコーダ、セマンティックデコーダ、ピクセルデコーダの3つの要素から構成される。学習は、マスク誘導学習を行うかどうかで2つのフェーズに分けられる。
FixMatch with UniPerbをベースラインとして採用し、ラベル付きデータはGround Truthで学習し、ラベルなしデータは弱摂動を加えたデータから生成した擬似ラベルで学習する。
ラベル付きデータ、強摂動を加えたラベルなしデータ、弱摂動を加えたラベルなしデータのそれぞれにマスク処理を施し、ピクセル、特徴量、セマンティックの各空間でマスク誘導学習を行う。
PASCAL VOC 2012とCityscapesの2つのベンチマークデータセットを用いて評価を行った結果、S4MIMは従来手法と比較して優れた性能を示した。特に、ラベル付きデータが少ない場合でも高い性能を発揮することが確認された。
本論文では、MIMを用いることで半教師ありセマンティックセグメンテーションの精度を向上させる新しい手法を提案した。提案手法は、クラス単位のMIM、クラス単位のマスク誘導特徴量集約、セマンティック空間におけるMIMの3つの要素から構成される。実験の結果、提案手法は従来手法と比較して優れた性能を示し、MIMが半教師ありセマンティックセグメンテーションにおいて有効であることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yangyang Li,... at arxiv.org 11-14-2024
https://arxiv.org/pdf/2411.08756.pdfDeeper Inquiries