マスク画像モデリング(MIM)を用いることで、限られたラベル付きデータと大量のラベルなしデータを用いた半教師ありセマンティックセグメンテーションの精度を大幅に向上させることができる。
最新のビジョンエンコーダ(DINOv2など)と、よりシンプルかつ効果的なデュアルストリーム学習手法を用いることで、半教師ありセマンティックセグメンテーションの性能を大幅に向上させることができる。