Core Concepts
본 연구는 텍스트 프롬프트에 대응하여 3D 실내 장면을 생성하는 시스템을 제안한다. 이 시스템은 고정된 실내 공간 유형이나 객체 범주에 국한되지 않는 "개방형" 기능을 제공하며, 이는 사전 훈련된 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 활용하여 실현된다.
Abstract
본 연구는 텍스트 프롬프트에 대응하여 3D 실내 장면을 생성하는 시스템을 제안한다. 이 시스템은 고정된 실내 공간 유형이나 객체 범주에 국한되지 않는 "개방형" 기능을 제공한다. 이를 위해 사전 훈련된 대규모 언어 모델(LLM)을 활용하여 객체와 공간 관계를 기술하는 프로그램을 합성하고, 이를 실행하여 객체 배치를 최적화한다. 또한 비전-언어 모델(VLM)을 활용하여 대규모 비정제 3D 객체 데이터베이스에서 적절한 3D 메시를 검색하고 방향을 결정한다. 실험 평가 결과, 제안 시스템은 기존 3D 데이터 기반 생성 모델을 능가하며, 최근 LLM 기반 레이아웃 생성 방법보다도 우수한 성능을 보인다.
Stats
실내 공간 크기: 6.5m x 4.0m x 3.0m
실내 공간 점유율: 45%
Quotes
"A living room for watching TV"
"A high-end mini restaurant"
"A witch's room with a cauldron"
"A Japanese living room"
"A living room"
"A dining room for one"
"A bedroom"
"An old-fashioned bedroom"