이 논문은 다대다 이미지 생성을 위한 혁신적인 프레임워크를 소개한다. 주요 내용은 다음과 같다:
MIS라는 새로운 대규모 다중 이미지 데이터셋을 소개한다. MIS는 12M개의 합성 다중 이미지 샘플로 구성되어 있으며, 각 샘플은 25개의 상호 연관된 이미지로 이루어져 있다.
Many-to-many Diffusion (M2M)이라는 도메인 일반 모델을 제안한다. M2M은 자동회귀 방식으로 임의의 개수의 상호 연관된 이미지를 생성할 수 있다.
M2M-Self와 M2M-DINO라는 두 가지 모델 변형을 소개한다. M2M-Self는 동일한 U-Net 기반 디노이징 모델을 사용하여 이전 이미지와 노이즈 이미지를 동시에 처리한다. M2M-DINO는 외부 비전 모델을 활용하여 이전 이미지를 인코딩한다.
실험 결과를 통해 M2M이 이전 이미지의 스타일과 내용을 포착하고 이를 반영하여 새로운 이미지를 생성할 수 있음을 보여준다. 또한 실제 이미지에 대한 제로샷 일반화 능력과 다양한 다중 이미지 생성 작업에 대한 적응성을 입증한다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania