Concepts de base
본 연구는 텍스트 프롬프트에서 고품질의 일관된 360도 파노라마 이미지를 생성하기 위해 이중 브랜치 확산 모델 PanFusion을 제안한다. PanFusion은 안정 확산 모델의 풍부한 사전 지식을 활용하여 전체적인 레이아웃과 지역적인 세부 사항을 모두 고려한다.
Résumé
본 연구는 텍스트 프롬프트에서 360도 파노라마 이미지를 생성하는 문제를 다룬다. 이를 위해 다음과 같은 접근법을 제안한다:
- 데이터 부족 문제를 해결하기 위해 안정 확산 모델의 사전 지식을 활용한다.
- 파노라마와 원근 이미지 간의 기하학적 및 도메인 차이를 해결하기 위해 이중 브랜치 확산 모델 PanFusion을 제안한다.
- 파노라마 브랜치: 전체적인 레이아웃 가이드 제공 및 원근 정보 등록
- 원근 브랜치: 안정 확산 모델의 풍부한 원근 이미지 생성 기능 활용
- 두 브랜치 간 정보 전달을 위해 등각 투영-원근 투영 주의 메커니즘(EPPA)을 도입한다.
- 레이아웃 조건부 생성을 위해 파노라마 브랜치에 ControlNet을 추가한다.
실험 결과, PanFusion은 기존 방법보다 더 높은 품질과 일관성을 보여준다.
Stats
360도 파노라마 이미지는 2:1의 종횡비와 등각 투영(ERP) 기하학을 가지며, 일반적인 정사각형 원근 이미지와 크게 다르다.
텍스트-파노라마 이미지 쌍의 데이터가 매우 부족하여 모델 학습이 어렵다.
Citations
"Generative models, e.g., Stable Diffusion, have enabled the creation of photorealistic images from text prompts. Yet, the generation of 360-degree panorama images from text remains a challenge, particularly due to the dearth of paired text-panorama data and the domain gap between panorama and perspective images."
"To mitigate the scarcity of panorama-specific training data, the previous solutions follow a common principle that leverages the prior knowledge of the pre-trained generative model [17, 20, 47]."