Core Concepts
제안된 3D-DST 프레임워크는 확산 모델에 3D 기하학적 제어를 통합하여 생성된 이미지의 3D 구조를 명시적으로 제어할 수 있으며, 이를 통해 자동으로 2D 이미지에 대한 3D 주석을 획득할 수 있다.
Abstract
이 논문은 확산 모델에 3D 기하학적 제어를 통합하는 3D-DST 프레임워크를 제안한다. 3D-DST는 3D 모델에서 렌더링된 에지 맵을 시각적 프롬프트로 사용하여 생성된 이미지의 3D 구조를 명시적으로 제어할 수 있다. 또한 LLM을 활용하여 다양한 텍스트 프롬프트를 생성함으로써 생성된 이미지의 다양성을 높인다.
3D-DST의 주요 특징은 다음과 같다:
3D 기하학적 제어를 통해 생성된 이미지의 3D 구조(자세, 거리 등)를 조절할 수 있으며, 이를 통해 자동으로 2D 이미지에 대한 3D 주석을 획득할 수 있다.
LLM을 활용하여 다양한 텍스트 프롬프트를 생성함으로써 생성된 이미지의 다양성을 높일 수 있다.
생성된 이미지를 활용하여 분류, 3D 자세 추정 등 다양한 컴퓨터 비전 작업의 성능을 향상시킬 수 있다.
실험 결과, 3D-DST는 ImageNet-100/200, ImageNet-R, PASCAL3D+, ObjectNet3D 등의 데이터셋에서 기존 방법 대비 우수한 성능을 보였다. 특히 OOD 성능 향상에 효과적이었다.
Stats
3D 모델을 활용하여 다양한 각도와 거리에서 렌더링된 이미지를 생성할 수 있다.
LLM을 활용하여 생성된 이미지의 배경, 날씨, 색상 등을 다양하게 조절할 수 있다.
Quotes
"제안된 3D-DST 프레임워크는 확산 모델에 3D 기하학적 제어를 통합하여 생성된 이미지의 3D 구조를 명시적으로 제어할 수 있으며, 이를 통해 자동으로 2D 이미지에 대한 3D 주석을 획득할 수 있다."
"LLM을 활용하여 다양한 텍스트 프롬프트를 생성함으로써 생성된 이미지의 다양성을 높일 수 있다."