核心概念
MuLAn は、単一のRGB画像を背景と個別のインスタンスを表す透明なRGBA層に分解するデータセットである。これにより、精密な空間制御と局所的な編集が可能になり、テキスト主導の画像生成技術の発展を促進する。
要約
本研究では、MuLAn: 44,860枚の多層RGBA画像アノテーションデータセットを提案する。MuLANは、単一のRGB入力画像を背景と個別のインスタンスを表す透明なRGBA層に分解する。
データセット作成のために、以下の3つのモジュールからなるパイプラインを開発した:
画像分解モジュール: オブジェクト検出、セグメンテーション、深度推定を用いて、画像からインスタンスを発見・抽出する。
インスタンス補完モジュール: 隠れた部分を生成モデルによって補完する。
画像再構築モジュール: 抽出したインスタンスをRGBA形式で重ね合わせる。
MuLANは、COCOとLAION Aestheticsデータセットから構築されており、様々なスタイル、構図、複雑さの画像分解を含む。MuLANの公開により、テキスト主導の画像生成や局所的な編集技術の発展が期待される。
統計
画像全体の背景を補完するのは難しい場合がある。オブジェクトの影響などにより、背景の正確な再現が困難になることがある。
一部のインスタンスの補完が不完全な場合がある。特殊な姿勢や遮蔽された部分の補完が難しい。
小さなインスタンスの抽出が不正確になる場合がある。アルファマスクの過剰な侵食により、インスタンスが欠落する。