핵심 개념
MULAN은 단일 RGB 이미지를 배경과 개별 객체 인스턴스로 구성된 다층 RGBA 분해로 변환하는 새로운 데이터셋이다. 이를 통해 정밀한 이미지 조작과 편집이 가능해진다.
초록
MULAN 데이터셋은 COCO와 LAION Aesthetics 6.5 데이터셋에서 추출된 44,860개의 이미지로 구성되어 있다. 이 데이터셋은 단일 RGB 이미지를 배경과 개별 객체 인스턴스로 구성된 다층 RGBA 분해로 변환한다.
데이터셋 구축을 위해 다음과 같은 3단계 파이프라인을 개발했다:
- 이미지 분해 모듈: 객체 탐지, 분할, 깊이 추정 모델을 활용하여 이미지를 배경과 개별 인스턴스로 분해한다.
- 인스턴스 완성 모듈: 가려진 영역을 최신 생성 모델을 통해 복원한다.
- 이미지 재조립 모듈: 개별 인스턴스를 깊이 순서대로 쌓아 최종 RGBA 스택을 생성한다.
MULAN 데이터셋은 다양한 장면 구성, 스타일, 해상도, 객체 범주를 포함하고 있다. 데이터셋 분석 결과, LAION 데이터셋은 단일 인스턴스 이미지가 많은 반면 COCO 데이터셋은 다양한 장면 구성을 가지고 있다. 또한 MULAN에는 총 759개의 객체 범주가 포함되어 있다.
MULAN 데이터셋은 텍스트 기반 이미지 생성 및 편집 연구에 활용될 수 있다. 예를 들어 RGBA 이미지 생성과 인스턴스 추가 이미지 편집 실험을 통해 데이터셋의 유용성을 확인하였다.
통계
MULAN 데이터셋은 총 44,860개의 이미지로 구성되어 있으며, 이 중 16,034개는 COCO 데이터셋에서, 28,826개는 LAION Aesthetics 6.5 데이터셋에서 추출되었다.
데이터셋에는 총 759개의 객체 범주가 포함되어 있다.
인용구
"MULAN은 단일 RGB 이미지를 배경과 개별 객체 인스턴스로 구성된 다층 RGBA 분해로 변환하는 새로운 데이터셋이다."
"MULAN 데이터셋은 다양한 장면 구성, 스타일, 해상도, 객체 범주를 포함하고 있다."