MULAN 데이터셋은 COCO와 LAION Aesthetics 6.5 데이터셋에서 추출된 44,860개의 이미지로 구성되어 있다. 이 데이터셋은 단일 RGB 이미지를 배경과 개별 객체 인스턴스로 구성된 다층 RGBA 분해로 변환한다.
데이터셋 구축을 위해 다음과 같은 3단계 파이프라인을 개발했다:
MULAN 데이터셋은 다양한 장면 구성, 스타일, 해상도, 객체 범주를 포함하고 있다. 데이터셋 분석 결과, LAION 데이터셋은 단일 인스턴스 이미지가 많은 반면 COCO 데이터셋은 다양한 장면 구성을 가지고 있다. 또한 MULAN에는 총 759개의 객체 범주가 포함되어 있다.
MULAN 데이터셋은 텍스트 기반 이미지 생성 및 편집 연구에 활용될 수 있다. 예를 들어 RGBA 이미지 생성과 인스턴스 추가 이미지 편집 실험을 통해 데이터셋의 유용성을 확인하였다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania