이 연구에서는 사용자가 제공한 부분 이미지, 레이아웃 정보(평면도 또는 지형도), 텍스트 프롬프트를 활용하여 3D 장면을 생성하고 제어하는 방법을 제안한다.
먼저, 부분 이미지와 레이아웃 정보를 360도 등장면 형식으로 변환한다. 이를 텍스트 프롬프트와 함께 사용하여 360도 RGB 이미지를 생성한다. 다음으로, 생성된 360도 RGB 이미지와 레이아웃 정보를 활용하여 깊이 정보를 추정하고, 이를 바탕으로 NeRF 모델을 학습한다.
이 방법은 기존 연구의 한계를 보완하여 사용자의 의도를 반영한 3D 장면을 생성할 수 있다. 특히, 부분 이미지, 레이아웃 정보, 텍스트 프롬프트를 통합적으로 활용함으로써 장면의 외관, 기하학적 구조, 전반적인 맥락을 효과적으로 제어할 수 있다. 또한 대규모 데이터셋 구축 없이도 3D 장면을 생성할 수 있도록 하였다.
실험 결과, 제안 방법은 다양한 실내외 장면을 사용자의 의도에 따라 생성할 수 있음을 보여준다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések