Core Concepts
画像拡散モデルを活用し、セマンティックマスクとスタイルプロンプトを組み合わせることで、ドメイン一般化可能なセマンティックセグメンテーションモデルを構築する。
Abstract
本論文は、画像拡散モデルを活用したドメイン一般化可能なセマンティックセグメンテーションの手法を提案している。
まず、事前学習済みの潜在拡散モデル(LDM)をソースドメインのデータでファインチューニングし、セマンティックマスクを条件として画像生成を行う。これにより、ソースドメインの特徴を持ちつつ、セマンティックレイアウトを制御できる画像データを生成する。
次に、Style Swapと呼ばれる手法を提案し、生成画像のスタイルをソースドメインから切り離す。これにより、生成画像の多様性を確保する。さらに、Multi-Resolution Latent Fusionを導入し、小さなオブジェクトの生成精度を向上させる。
最後に、生成したデータセットを用いてセマンティックセグメンテーションモデルを学習する。ドメイン一般化の手法と組み合わせることで、複数のターゲットドメインにおいて高精度なセグメンテーション結果を得ることができる。
Stats
自動運転シーンにおいて、ソースドメインのGTAデータセットを用いて生成したデータを活用することで、ターゲットドメインのCityscapes、BDD100K、Mapillary Vistasの平均mIoUが45.27%から46.67%に向上した。
Quotes
"LDMsは、インターネット規模のデータを吸収することで強力な前景知識を獲得しており、これを活用することで、ドメイン一般化性能の向上が期待できる。"
"Style Swapにより、セマンティックコントロールとスタイルを分離することで、生成画像の多様性を確保できる。"
"Multi-Resolution Latent Fusionにより、小さなオブジェクトの生成精度を向上させることができる。"