核心概念
GeoSynth는 전역적 스타일 제어와 이미지 기반 레이아웃 제어를 통해 위성 영상을 합성할 수 있는 모델입니다.
摘要
GeoSynth는 위성 영상 합성을 위한 모델입니다. 이 모델은 텍스트 프롬프트 또는 지리적 위치를 통해 전역적 스타일 제어를 제공하며, OpenStreetMap 데이터를 통해 레이아웃 제어를 제공합니다.
대규모 위성 영상 데이터셋과 자동 생성된 캡션, OpenStreetMap 데이터를 사용하여 모델을 학습했습니다.
다양한 레이아웃 제어 방식을 평가했으며, 결과적으로 모델이 다양하고 고품질의 영상을 생성할 수 있고 제로샷 일반화 성능이 우수함을 보여줍니다.
모델은 지리적 위치 정보를 활용하여 해당 지역의 특성을 반영한 위성 영상을 생성할 수 있습니다.
다양한 레이아웃 제어 방식(OpenStreetMap, Canny 엣지, Segment Anything 마스크)을 평가했으며, OpenStreetMap 이미지가 가장 우수한 성능을 보였습니다.
텍스트 프롬프트를 활용하면 모델의 성능이 크게 향상됩니다.
제로샷 실험을 통해 모델의 일반화 능력을 확인했으며, 다양한 지리적 개념을 효과적으로 생성할 수 있음을 보여줍니다.
統計資料
위성 영상 합성 시 사용되는 주요 지표나 수치는 다음과 같습니다:
FID(Frechet Inception Distance): 13.55
SSIM(Structural Similarity Index): 0.237
CLIP-Score: 0.287