핵심 개념
본 논문에서는 새로운 파노라마 비디오-텍스트 데이터 세트와 구형 에피폴라 인식 어텐션 모듈을 갖춘 텍스트 기반 파노라마 생성 프레임워크인 DiffPano를 제안하여 보다 사실적이고 일관된 다중 뷰 파노라마 생성을 가능하게 합니다.
초록
DiffPano: 구형 에피폴라 인식 확산을 통한 확장 가능하고 일관된 텍스트-파노라마 생성
본 연구는 텍스트 설명과 카메라 위치 정보를 기반으로 사실적이고 일관된 다중 뷰 파노라마 이미지를 생성하는 것을 목표로 합니다.
1. 파노라마 비디오-텍스트 데이터 세트 구축
기존의 파노라마 데이터 세트는 텍스트-다중 뷰 파노라마 생성 작업에 적합하지 않기 때문에 본 연구에서는 Habitat Simulator[41]를 활용하여 Habitat Matterport 3D (HM3D)[37] 데이터 세트에서 장면을 렌더링하고, BLIP2[22]와 Llama2[50]를 사용하여 각 뷰에 대한 텍스트 설명을 생성하여 새로운 파노라마 비디오-텍스트 데이터 세트를 구축했습니다.
2. DiffPano 프레임워크 제안
DiffPano 프레임워크는 단일 뷰 텍스트-파노라마 확산 모델과 구형 에피폴라 인식 다중 뷰 확산 모델로 구성됩니다.
단일 뷰 텍스트-파노라마 확산 모델: LoRA[18]를 사용하여 기존의 Stable Diffusion 모델[38]을 파노라마 스타일에 맞게 미세 조정하여 텍스트에서 단일 뷰 파노라마를 생성합니다.
구형 에피폴라 인식 다중 뷰 확산 모델: 단일 뷰 파노라마 생성을 다중 뷰로 확장하기 위해 구형 에피폴라 제약 조건을 활용하는 구형 에피폴라 인식 어텐션 모듈을 설계했습니다. 이 모듈은 생성된 파노라마 이미지의 다중 뷰 일관성을 보장합니다.