本研究では、地球観測(EO)データの大量の未ラベル化されたデータを活用するため、地理的位置と時間に基づいて自動的に異なるモダリティのデータをペアリングした大規模な多モーダルプリトレーニングデータセットMMEarthを提案する。
MMEarthには12のモダリティが含まれており、1.2百万の場所からデータが収集されている。
提案手法のMulti-Pretext Masked Autoencoder (MP-MAE)は、ConvNeXt V2アーキテクチャをベースとしており、多様な多モーダルな前置き課題を活用して、Sentinel-2光学衛星画像の一般的な表現を学習する。
実験の結果、提案手法はImageNetでプリトレーニングされたMAEや、Sentinel-2画像のみでプリトレーニングされたMAEよりも、画像分類やセマンティックセグメンテーションなどの下流タスクで優れた性能を示した。特に、線形プローブ性能が大幅に向上し(BigEarth20kで4pp、So2Sat20kで16pp)、ラベルと
パラメータの効率性も向上することが示された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Vishal Nedun... kl. arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02771.pdfDybere Forespørgsler