核心概念
마스크드 오토인코더를 활용하여 다중 센서 원격 탐사 이미지 아카이브에서 센서 독립적 이미지 검색을 수행할 수 있다.
要約
이 논문은 원격 탐사 이미지 검색을 위해 마스크드 오토인코더(MAE)를 활용하는 방법을 제안한다. 기존 MAE 모델은 단일 센서 이미지에 대해서만 학습이 가능했지만, 이 논문에서는 다중 센서 이미지 아카이브를 활용할 수 있도록 MAE를 확장한 Cross-Sensor Masked Autoencoder(CSMAE) 모델을 소개한다.
CSMAE 모델은 다음과 같은 특징을 가진다:
다중 센서 인코더와 디코더 구조를 가지며, 센서 공통 또는 센서 특화 구조를 사용할 수 있다.
다중 센서 이미지의 마스킹 방식(동일, 무작위, 분리)을 달리하여 모델을 학습할 수 있다.
단일 센서 및 다중 센서 이미지 복원 손실 함수를 활용하여 학습한다.
추가로 모달리티 간 잠재 표현 유사도 보존 손실 함수를 활용할 수 있다.
실험 결과, CSMAE 모델은 단일 센서 및 다중 센서 이미지 검색 성능이 우수한 것으로 나타났다. 특히 무작위 마스킹 방식과 단일/다중 센서 복원 손실 함수를 함께 사용할 때 가장 좋은 성능을 보였다. 이를 통해 CSMAE 모델이 센서 독립적 이미지 검색에 효과적임을 확인할 수 있다.
統計
원격 탐사 이미지 아카이브에는 590,326개의 Sentinel-1 SAR 이미지와 Sentinel-2 다분광 이미지 쌍이 포함되어 있다.
실험에는 270,470개의 이미지 쌍(BEN-270K)과 14,832개의 이미지 쌍(BEN-14K)이 사용되었다.
引用
"마스크드 오토인코더(MAE)는 최근 원격 탐사 이미지 표현 학습에 큰 관심을 끌고 있으며, 따라서 계속 증가하는 원격 탐사 이미지 아카이브에 대한 콘텐츠 기반 이미지 검색(CBIR)에 큰 잠재력을 가지고 있다."
"그러나 기존 원격 탐사 분야의 MAE 연구는 고려된 원격 탐사 이미지가 단일 이미지 센서에 의해 획득되었다고 가정하며, 따라서 단일 모달 CBIR 문제에만 적합하다."