本研究では、MuLAn: 44,860枚の多層RGBA画像アノテーションデータセットを提案する。MuLANは、単一のRGB入力画像を背景と個別のインスタンスを表す透明なRGBA層に分解する。
データセット作成のために、以下の3つのモジュールからなるパイプラインを開発した:
MuLANは、COCOとLAION Aestheticsデータセットから構築されており、様々なスタイル、構図、複雑さの画像分解を含む。MuLANの公開により、テキスト主導の画像生成や局所的な編集技術の発展が期待される。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Petru-Daniel... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02790.pdfDeeper Inquiries