Core Concepts
本研究では、CLIP、ディフュージョンモデル、Segment Anything Modelなどの基盤モデルを協調的に統合することで、ドメイン一般化セマンティックセグメンテーションの性能を大幅に向上させている。
Abstract
本研究は、ドメイン一般化セマンティックセグメンテーション(DGSS)の課題に取り組んでいる。従来のDGSS手法は、主にスタイル多様化(ドメインランダム化)に依存していたが、コンテンツの多様化を考慮していなかった。
本研究では、以下の3つの基盤モデルを統合的に活用することで、DGSSの性能を大幅に向上させている:
CLIP: 頑健な特徴表現を提供する
ディフュージョンモデル: 多様なコンテンツを生成する
Segment Anything Model(SAM): 疑似ラベルを精緻化する
具体的には、CLIPをエンコーダとして使用し、ディフュージョンモデルとLLMを組み合わせて多様な合成画像を生成する。生成された画像の疑似ラベルをSAMを用いて精緻化し、学生-教師フレームワークでの自己教師学習に活用する。
実験の結果、従来のDGSS手法や基盤モデルベースの手法を大幅に上回る性能を示した。特に、合成から実世界のベンチマークや悪天候条件下での性能が優れていることが確認された。
Stats
合成画像を生成するためのテキストプロンプトは、LLMを用いて多様化している。
SAMを用いて疑似ラベルを精緻化することで、学生モデルの性能が大幅に向上している。