MULAN 데이터셋은 COCO와 LAION Aesthetics 6.5 데이터셋에서 추출된 44,860개의 이미지로 구성되어 있다. 이 데이터셋은 단일 RGB 이미지를 배경과 개별 객체 인스턴스로 구성된 다층 RGBA 분해로 변환한다.
데이터셋 구축을 위해 다음과 같은 3단계 파이프라인을 개발했다:
MULAN 데이터셋은 다양한 장면 구성, 스타일, 해상도, 객체 범주를 포함하고 있다. 데이터셋 분석 결과, LAION 데이터셋은 단일 인스턴스 이미지가 많은 반면 COCO 데이터셋은 다양한 장면 구성을 가지고 있다. 또한 MULAN에는 총 759개의 객체 범주가 포함되어 있다.
MULAN 데이터셋은 텍스트 기반 이미지 생성 및 편집 연구에 활용될 수 있다. 예를 들어 RGBA 이미지 생성과 인스턴스 추가 이미지 편집 실험을 통해 데이터셋의 유용성을 확인하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Petru-Daniel... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02790.pdfYêu cầu sâu hơn