核心概念
地球観測データの大量の未ラベル化されたデータを活用し、地理的位置と時間に基づいて自動的に異なるモダリティのデータをペアリングすることで、光学衛星画像の一般的な表現を学習する。
摘要
本研究では、地球観測(EO)データの大量の未ラベル化されたデータを活用するため、地理的位置と時間に基づいて自動的に異なるモダリティのデータをペアリングした大規模な多モーダルプリトレーニングデータセットMMEarthを提案する。
MMEarthには12のモダリティが含まれており、1.2百万の場所からデータが収集されている。
提案手法のMulti-Pretext Masked Autoencoder (MP-MAE)は、ConvNeXt V2アーキテクチャをベースとしており、多様な多モーダルな前置き課題を活用して、Sentinel-2光学衛星画像の一般的な表現を学習する。
実験の結果、提案手法はImageNetでプリトレーニングされたMAEや、Sentinel-2画像のみでプリトレーニングされたMAEよりも、画像分類やセマンティックセグメンテーションなどの下流タスクで優れた性能を示した。特に、線形プローブ性能が大幅に向上し(BigEarth20kで4pp、So2Sat20kで16pp)、ラベルと
パラメータの効率性も向上することが示された。
統計資料
Sentinel-2光学衛星画像は12バンドの多分光データを含む
Sentinel-1 SARデータは4つのバンド(VV、VH、HV、HH)を含む
Aster DEMデータは標高とスロープの2つのバンドを含む
ETH-GCHMデータはキャノピー高さと不確実性の2つのバンドを含む
Dynamic Worldデータは9つのランドカバーカテゴリを含む
ESA World Coverデータは11のランドカバーカテゴリを含む
Biomeデータは14の生態系カテゴリを含む
Ecoregionデータは846の生態地域カテゴリを含む
ERA5気候データは年、月、前月の平均、最小、最大気温と降水量を含む
緯度と経度は4つのバンドでサイクリックにエンコーディングされている
Sentinel-2観測日は2つのバンドでサイクリックにエンコーディングされている
引述
"地球観測(EO)データの大量の未ラベル化されたデータは膨大であるが、多くの重要なアプリケーションにはラベル付きの訓練データが不足している。しかし、EOデータは地理的位置と時間に基づいて自動的にデータをペアリングできるという独特の機会を提供する。"
"我々は、この機会を捉えて、1.2百万の場所からなる多様な多モーダルなプリトレーニングデータセットを作成した。このデータセットを使用して、光学衛星画像の一般的な表現を学習するためのMulti-Pretext Masked Autoencoder (MP-MAE)アプローチを提案する。"