이 논문은 상호작용형 3D 장면 생성 문제를 다룹니다. 기존의 3D 장면 생성 방법은 오프라인 처리 방식으로, 사용자가 단일 시작 이미지나 텍스트 프롬프트를 제공하면 수십 분에서 수 시간 후에 고정된 3D 장면이나 장면 동영상을 반환합니다. 이는 게임 개발, VR, 비디오 게임 등의 응용 분야에 적합하지 않습니다.
저자들은 WonderWorld라는 새로운 프레임워크를 제안합니다. WonderWorld는 사용자가 실시간으로 장면 내용과 레이아웃을 지정할 수 있으며, 생성된 장면을 빠른 속도로 볼 수 있습니다. 이를 위해 저자들은 Fast LAyered Gaussian Surfels (FLAGS) 표현과 단일 뷰에서 FLAGS를 생성하는 알고리즘을 개발했습니다. FLAGS는 기존 방식보다 빠른 생성 속도를 제공하며, 기하학 기반 초기화를 통해 최적화 시간을 크게 단축합니다. 또한 가이드된 깊이 확산 방법을 통해 생성된 장면 간의 기하학적 일관성을 향상시켰습니다.
실험 결과, WonderWorld는 기존 방식보다 월등히 빠른 생성 속도를 보이며, 생성된 장면의 품질도 우수한 것으로 나타났습니다. 이를 통해 사용자가 실시간으로 다양하고 연결된 3D 장면을 생성하고 탐험할 수 있는 새로운 가능성을 열었습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문