本研究では、MuLAn: 44,860枚の多層RGBA画像アノテーションデータセットを提案する。MuLANは、単一のRGB入力画像を背景と個別のインスタンスを表す透明なRGBA層に分解する。
データセット作成のために、以下の3つのモジュールからなるパイプラインを開発した:
MuLANは、COCOとLAION Aestheticsデータセットから構築されており、様々なスタイル、構図、複雑さの画像分解を含む。MuLANの公開により、テキスト主導の画像生成や局所的な編集技術の発展が期待される。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Petru-Daniel... às arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02790.pdfPerguntas Mais Profundas