Keskeiset käsitteet
제안된 EpiDiff 모델은 단일 입력 이미지로부터 효율적이고 일관된 다중 뷰 이미지를 생성할 수 있다. 이를 위해 에피폴라 기하학을 활용한 경량 주변 뷰 주의 메커니즘을 도입하여 3D 일관성을 모델링한다.
Tiivistelmä
이 논문은 단일 입력 이미지로부터 다중 뷰 이미지를 효율적이고 일관되게 생성하는 EpiDiff 모델을 제안한다.
핵심 내용은 다음과 같다:
- 기존 2D 이미지 확산 모델에 3D 모델링 모듈을 추가하여 다중 뷰 일관성을 향상시킴
- 에피폴라 기하학을 활용한 경량 주변 뷰 주의 메커니즘을 도입하여 3D 일관성을 효과적으로 모델링
- 기존 모델 대비 빠른 생성 속도와 우수한 품질의 다중 뷰 이미지 생성 성능 달성
실험 결과, EpiDiff는 16개의 다중 뷰 이미지를 단 12초 만에 생성할 수 있으며, PSNR, SSIM, LPIPS 등의 지표에서 기존 방법들을 뛰어넘는 성능을 보였다. 또한 다양한 각도의 뷰를 생성할 수 있어 3D 재구성 품질 향상에 기여한다.
Tilastot
단일 입력 이미지로부터 16개의 다중 뷰 이미지를 12초 만에 생성할 수 있다.
다중 뷰 이미지 생성 시 PSNR 20.49, SSIM 0.855, LPIPS 0.128의 성능을 달성한다.
Lainaukset
"EpiDiff employs a 3D modeling module into the frozen diffusion model. The module preserves the original feature distribution of the diffusion model, exhibiting compatibility with various diffusion models."
"We propose an epipolar attention block to learn the inter-correlations among neighboring views based on epipolar geometry relationships. This localized interactive and lightweight module models consistency effectively."