핵심 개념
제안된 AOG-Net은 불완전한 360도 이미지를 점진적으로 외부로 확장하여 사용자가 제공한 텍스트 가이드와 일관된 고품질의 360도 이미지를 생성합니다.
초록
이 연구는 자동회귀 방식의 360도 이미지 생성 모델 AOG-Net을 제안합니다. AOG-Net은 불완전한 360도 이미지를 점진적으로 외부로 확장하여 고품질의 360도 이미지를 생성합니다.
핵심 특징은 다음과 같습니다:
- 자동회귀 방식으로 단계적으로 이미지를 생성하여 세부 정보와 텍스트 일관성을 향상시킵니다.
- 전역-지역 조건 메커니즘을 통해 텍스트 가이드, 전방향 시각 단서, NFoV 입력, 전방향 기하학 정보를 종합적으로 활용합니다.
- 대규모 사전 학습 모델을 활용하여 개방형 어휘 텍스트 가이드를 지원합니다.
실험 결과, AOG-Net은 실내외 환경에서 최신 기술 대비 우수한 성능을 보였습니다. 특히 세부 묘사와 텍스트 일관성이 향상되었습니다.
통계
360도 이미지 데이터셋에는 2,233개의 실내 이미지와 210개의 실외 이미지가 포함되어 있습니다.
실내 데이터셋에서 1,921개의 이미지를 학습에 사용하고 312개의 이미지를 테스트에 사용했습니다.
실외 데이터셋에서 170개의 이미지를 학습에 사용하고 40개의 이미지를 테스트에 사용했습니다.
인용구
"AOG-Net은 자동회귀 방식으로 단계적으로 이미지를 생성하여 세부 정보와 텍스트 일관성을 향상시킵니다."
"AOG-Net은 전역-지역 조건 메커니즘을 통해 다양한 정보를 종합적으로 활용합니다."
"AOG-Net은 대규모 사전 학습 모델을 활용하여 개방형 어휘 텍스트 가이드를 지원합니다."