マスク画像モデリング（MIM）を用いることで、限られたラベル付きデータと大量のラベルなしデータを用いた半教師ありセマンティックセグメンテーションの精度を大幅に向上させることができる。


coremsg

マスク画像モデリングによる半教師ありセマンティックセグメンテーションの向上


最新のビジョンエンコーダ（DINOv2など）と、よりシンプルかつ効果的なデュアルストリーム学習手法を用いることで、半教師ありセマンティックセグメンテーションの性能を大幅に向上させることができる。



UniMatch V2：大規模事前学習済みビジョンエンコーダを用いた半教師ありセマンティックセグメンテーションの限界に挑戦