이 논문은 다대다 이미지 생성을 위한 혁신적인 프레임워크를 소개한다. 주요 내용은 다음과 같다:
MIS라는 새로운 대규모 다중 이미지 데이터셋을 소개한다. MIS는 12M개의 합성 다중 이미지 샘플로 구성되어 있으며, 각 샘플은 25개의 상호 연관된 이미지로 이루어져 있다.
Many-to-many Diffusion (M2M)이라는 도메인 일반 모델을 제안한다. M2M은 자동회귀 방식으로 임의의 개수의 상호 연관된 이미지를 생성할 수 있다.
M2M-Self와 M2M-DINO라는 두 가지 모델 변형을 소개한다. M2M-Self는 동일한 U-Net 기반 디노이징 모델을 사용하여 이전 이미지와 노이즈 이미지를 동시에 처리한다. M2M-DINO는 외부 비전 모델을 활용하여 이전 이미지를 인코딩한다.
실험 결과를 통해 M2M이 이전 이미지의 스타일과 내용을 포착하고 이를 반영하여 새로운 이미지를 생성할 수 있음을 보여준다. 또한 실제 이미지에 대한 제로샷 일반화 능력과 다양한 다중 이미지 생성 작업에 대한 적응성을 입증한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ying Shen,Yi... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03109.pdfYêu cầu sâu hơn