Core Concepts
시공간 정보를 효과적으로 학습하고 활용하기 위해 Swin Transformer 기반의 다중 규모 표현 학습 모델을 제안하였다.
Abstract
이 논문은 위성 영상 처리를 위한 새로운 모델 아키텍처를 제안한다. 주요 내용은 다음과 같다:
시간적 정보를 고려하기 위해 2D Swin Transformer를 3D로 확장하여 ST-SwinMAE 모델을 제안하였다. 이를 통해 공간적 지역성, 계층성, 이동 불변성 등의 인덕티브 바이어스를 3D ViT 백본에 추가하였다.
전이 학습을 위해 인코더와 디코더를 모두 활용하고 스킵 연결을 추가한 ST-SwinUNet 구조를 제안하였다. 이를 통해 하위 수준 특징을 인코더에서 디코더로 전달하여 공간 정보 손실을 줄일 수 있었다.
SSL4EO-S12 데이터셋을 활용하여 ST-SwinMAE를 사전 학습하고, 이를 Degas 100M이라 명명하였다. 다양한 벤치마크 데이터셋에서 Degas 100M의 성능을 평가하였으며, 기존 지리공간 기반 모델들에 비해 우수한 성능을 보였다.
Stats
위성 영상 데이터셋 SSL4EO-S12는 총 3백만 개의 2640m×2640m 크기 패치로 구성되어 있다.
각 패치는 Sentinel-2 L1C, L2A, Sentinel-1 GRD 영상을 포함하며 4개의 계절별 스냅샷으로 구성된다.
Quotes
"현재 대규모 언어 모델로 대표되는 기반 모델은 극적인 발전을 이루었으며, 2D 및 3D 비전을 포함한 매우 다양한 분야에서 사용되고 있다."
"기반 모델의 중요한 응용 분야 중 하나인 지구 관측 분야에 관심이 집중되어 다양한 접근 방식이 개발되었다."