Kernekoncepter
SceneDreamer360은 텍스트에서 사실적이고 일관된 3D 장면을 생성하기 위해 파노라마 이미지 생성과 3D 가우시안 스플래팅을 결합한 새로운 텍스트 기반 3D 장면 생성 프레임워크입니다.
Resumé
SceneDreamer360: 텍스트 기반 3D 일관성 장면 생성
이 연구 논문에서는 텍스트에서 고해상도 360도 파노라마 포인트 클라우드 장면을 생성하는 새로운 파이프라인인 SceneDreamer360을 소개합니다. 이 파이프라인은 파노라마 이미지 생성 및 처리와 가우시안 스플래팅을 이용한 포인트 클라우드 구성이라는 두 가지 주요 단계로 구성됩니다. 그림 2에서 볼 수 있듯이 SceneDreamer360 프레임워크는 이러한 단계를 효과적으로 결합하여 시각적으로 일관되고 공간적으로 일치하는 3D 장면을 생성하여 세부적인 부분을 포착하고 높은 이미지 충실도를 유지합니다.
첫 번째 단계에서는 조정된 PanFusion 모델을 사용하여 초기 파노라마 이미지를 생성한 다음 3단계 초고해상도 프로세스를 통해 이미지 세부 정보와 해상도를 모두 향상시킵니다. 다음으로 고해상도 파노라마를 입력으로 사용하고 Equirectangular to Perspective(e2p) 알고리즘을 적용하여 다양한 원근에서 여러 장면 이미지를 얻습니다.
복잡한 장문 생성
GPT-4 모델을 사용하여 다양한 유사한 복잡한 장면 설명을 생성하여 학습 데이터의 다양성과 풍부함을 높였습니다. 사용자는 먼저 복잡한 장면에 대한 초기 장문 설명을 입력합니다. 유사한 의미와 내용을 가진 더 많은 텍스트를 생성하기 위해 GPT-4를 사용하여 텍스트를 확장하고 변형합니다. 이렇게 생성된 텍스트는 다양한 세부 정보와 관점을 포괄하므로 후속 파노라마 생성이 더욱 다양하고 포괄적입니다.
PanFusion 모델 미세 조정
주어진 장문 표현 T와 그 임베딩 eT에 대해 MLP 계층 이후의 표현은 다음과 같습니다.
h = σ(W2 · ReLU(W1 · eT + b1) + b2), (1)
여기서 W1과 W2는 MLP 계층의 가중치 행렬이고, b1과 b2는 편향 항이며, σ는 활성화 함수입니다.
파노라마 이미지 생성
이 방법에서는 PanFusion 모델[7]을 사용하여 파노라마를 생성했습니다. 그러나 PanFusion 모델은 원래 간단한 단문 프롬프트에서 학습되었기 때문에 복잡한 장문을 처리하려면 적절한 조정과 미세 조정이 필요했습니다. 따라서 원래 PanFusion 모델에 다층 퍼셉트론(MLP)[9] 계층과 저랭크 적응(LoRA)[10] 계층을 추가하고 재주석이 달린 Habitat Matterport 데이터 세트[11]를 사용하여 미세 조정했습니다. MLP 계층은 복잡한 장문에서 고차원 특징을 포착하는 반면 LoRA 계층은 저랭크 행렬 분해를 통해 모델의 표현 능력을 향상시킵니다. 모델 미세 조정을 위해 먼저 생성된 복잡한 장문을 사용하여 데이터 세트에 다시 주석을 달고 해당 파노라마와 쌍을 이루어 새로운 학습 샘플을 형성했습니다. 그런 다음 PanFusion 모델의 사전 학습된 부분을 고정하고 새로 추가된 MLP 및 LoRA 계층만 학습했습니다. 이렇게 하면 모델이 복잡한 장문의 정보를 효과적으로 활용하여 고품질 파노라마를 생성할 수 있습니다. 이러한 파노라마는 입력 텍스트에 설명된 세부 정보와 장면을 캡슐화하여 후속 단계의 기초 데이터 역할을 합니다.
주어진 장문 표현 T와 그 임베딩 eT에 대해 MLP 계층 이후의 표현은 다음과 같습니다.
h = σ(W2 · ReLU(W1 · eT + b1) + b2), (2)
여기서 W1과 W2는 MLP 계층의 가중치 행렬이고, b1과 b2는 편향 항이며, σ는 활성화 함수입니다.
LoRA 계층의 표현은 다음과 같습니다.
h′ = h + U · softmax(V · h), (3)
여기서 U와 V는 LoRA 계층의 저랭크 행렬입니다.
데이터 세트 재주석
생성된 복잡한 장문을 사용하여 데이터 세트에 다시 주석을 달았습니다. 구체적으로 복잡한 장문을 해당 파노라마와 쌍을 이루어 새로운 학습 샘플을 형성했습니다.
모델 미세 조정
미세 조정 중에 PanFusion 모델의 사전 학습된 부분을 고정하고 새로 추가된 MLP 및 LoRA 계층만 학습했습니다. 이렇게 하면 모델이 복잡한 장문의 정보를 효과적으로 활용하여 고품질 파노라마를 생성할 수 있습니다.
조정 및 미세 조정된 PanFusion 모델을 생성된 장문 컬렉션에 적용하여 360도 파노라마를 생성합니다. 이러한 파노라마에는 입력 텍스트에 설명된 세부 정보와 장면이 포함되어 있으며 후속 단계의 기초 데이터 역할을 합니다.
파노라마 이미지 최적화
사전 학습된 PanFusion 모델은 512 × 1024 해상도의 파노라마만 생성할 수 있으므로 이러한 파노라마를 다중 뷰 추출 및 포인트 클라우드 재구성에 직접 사용하면 3D 가우시안 렌더링[8]이 흐릿한 희소 포인트 클라우드가 생성됩니다. 포인트 클라우드 재구성의 요구 사항을 충족하려면 파노라마의 해상도와 품질을 더욱 향상시켜야 합니다. 구체적인 단계는 다음과 같습니다. ControlNet-Tile[12], RealESRGAN[13] 및 이미지 세부 정보와 해상도를 극대화하기 위한 ControlNet-Tile의 두 번째 적용을 포함하는 3단계 초고해상도 재구성 방법을 채택했습니다.
ControlNet-Tile 초고해상도 재구성
ControlNet-Tile 모델은 의미 인식을 통해 파노라마를 별개의 타일로 나눕니다. 모델은 각 타일을 분석하여 추가할 세부 정보와 복구할 부분을 결정합니다. ControlNet-Tile은 타일링을 기반으로 각 타일의 세부 정보를 향상시킵니다. 모델은 이미지에서 다양한 영역을 식별하고 각 영역의 세부 정보를 향상시켜 필요한 경우 추가 세부 정보를 추가할 수 있습니다. 세부 정보 향상 프로세스는 다음과 같이 표현할 수 있습니다.
Ienhanced = ftile(Iori, t), (4)
여기서 ftile은 ControlNet-Tile 모델을 나타내고, Iori는 원래 파노라마를 나타내며, t는 입력 텍스트를 나타냅니다.
RealESRGAN 초고해상도 재구성
ControlNet-Tile을 기반으로 RealESRGAN을 사용하여 더 높은 정밀도의 초고해상도 재구성을 수행했습니다. RealESRGAN은 생성적 적대 신경망을 기반으로 하는 고급 초고해상도 방법으로 자연스러운 디테일과 시각적 일관성을 유지하면서 해상도를 향상시킬 수 있습니다. 초고해상도 재구성 프로세스는 다음과 같이 표현할 수 있습니다.
Isuper = gESRGAN(Ienhanced), (5)
여기서 gESRGAN은 RealESRGAN 모델을 나타냅니다.
ControlNet-Tile 재최적화
RealESRGAN 처리 후 ControlNet-Tile을 한 번 더 적용하여 추가 개선 및 최적화를 수행했습니다. ControlNet-Tile을 두 번째로 적용하는 목적은 증가된 해상도에서 이미지의 디테일과 품질을 더욱 향상시키는 것입니다. 최종적으로 최적화된 이미지 Ifinal은 다음과 같이 표현됩니다.
Ifinal = ftile(Isuper, t). (6)
이러한 단계를 거쳐 파노라마의 해상도를 3072×6144로 높였습니다. 이 고해상도 파노라마는 원본 이미지의 전체적인 구조를 유지하면서 디테일과 선명도를 크게 향상시켜 후속 포인트 클라우드 재구성을 위한 고품질 입력 데이터를 제공합니다.
고해상도 파노라마를 얻은 후에는 포인트 클라우드 재구성을 위해 특정 시점에서 이미지를 추출해야 합니다. 포인트 클라우드 재구성의 요구 사항에 따라 적합한 카메라 포즈 세트 Pi ∈R4×4를 선택합니다. 이러한 카메라 포즈는 기하학적 및 시각적 범위 원칙에 따라 선택되어 선택한 원근이 파노라마의 중요한 세부 정보와 영역을 포괄적으로 다루도록 합니다. 구체적으로 시점 분포, 시차 효과, 재구성 영역의 범위를 고려하는 최적화 기반 시점 선택 알고리즘을 사용합니다. 카메라 포즈 Pi는 다음과 같이 표현됩니다.
Pi =
Ri
Ti
0
1
. (7)
회전 행렬 Ri는 다음과 같이 표현됩니다.
Ri =
cos(θ)
0
sin(θ)
0
1
0
−sin(θ)
0
cos(θ)
. (8)
변환 행렬 Ti는 다음과 같이 표현됩니다.
Ti =
Tx
Ty
Tz
=
0
0
0
. (9)
Equirectangular to Perspective(e2p) 알고리즘을 사용하여 파노라마를 변환하여 특정 시점에서 원근 이미지를 생성했습니다. e2p 알고리즘은 구형 파노라마를 다양한 시점에서 여러 평면 이미지로 변환하여 뷰 간에 시차를 생성합니다. 원근 변환 공식은 다음과 같습니다.
Iperspective(u, v) = E(P(f(u, v), Ri, Ti), S), (10)
여기서 f(u, v)는 평면 좌표(u, v)에서 구면 좌표로의 매핑 함수를 나타내고, S는 지정된 출력 크기를 나타내며, E는 뷰 크기 변환 함수를 나타냅니다.
카메라 포즈를 기반으로 e2p 알고리즘은 파노라마에서 원근 이미지를 생성합니다. 이러한 원근 이미지는 파노라마의 고해상도와 디테일을 유지하면서 뷰 간에 시차를 도입하여 후속 포인트 클라우드 재구성을 위한 풍부한 원근 정보를 제공합니다.
이러한 방법을 사용하면 텍스트 프롬프트에서 고품질의 360도 파노라마를 효과적으로 생성할 수 있습니다. 이 접근 방식은 고해상도의 상세한 입력 데이터를 제공하여 후속 포인트 클라우드 재구성을 위한 최적의 기반을 형성합니다. 정확한 원근 변환을 사용하여 포인트 클라우드 재구성 요구 사항에 적합한 일련의 시점 이미지를 생성합니다. 이러한 이미지는 다양한 각도를 포착할 뿐만 아니라 정확한 3D 장면을 구성하는 데 필요한 시각적 충실도와 공간적 일관성을 유지합니다. 결과적으로 이러한 이미지는 포인트 클라우드 재구성 프로세스의 견고한 기반 역할을 하여 최종 생성된 장면의 사실성과 일관성을 향상시킵니다.