Kernkonzepte
時系列衛星画像の特徴表現学習のためのSwin Transformerベースの階層的マスクオートエンコーダモデルを提案する。
Zusammenfassung
本論文では、時系列衛星画像の特徴表現学習のためのST-SwinMAEアーキテクチャを提案している。
ST-SwinMAEの特徴は以下の通り:
- Swin Transformerブロックを用いた階層的なマスクオートエンコーダ構造を採用し、時空間情報を効果的にモデル化する。
- 時系列情報を考慮するために、2D Swin Transformerを3D化し、時間次元の局所性と階層性を導入する。
- 事前学習後、エンコーダとデコーダの両方を保持し、スキップ接続を加えたST-SwinUNetアーキテクチャを提案する。これにより、下位層の空間情報を上位層に伝達し、多尺度特徴表現を実現する。
提案手法をPhilEO Benchなどのベンチマークデータセットで評価した結果、既存の地理空間ファウンデーションモデルと比較して優れた性能を示した。特に、PhilEO Benchのランドカバー分類タスクでは平均10.4%高い精度を達成した。
Statistiken
提案モデルST-SwinMAEのプリトレーニングでは、平均二乗誤差(MSE)が2.65e-4まで低下した。
PhilEO Benchのランドカバー分類タスクでは、提案モデルDegas 100Mが既存モデルと比べて平均10.4%高い精度を示した。
洪水マッピングタスクでは、提案モデルがIoU 84.47%、mIoU 91.12%、mAcc 96.23%と最高の性能を達成した。
野火跡マッピングタスクでは、提案モデルがIoU 74.92%、mIoU 85.96%、mAcc 93.44%と最高の性能を示した。
作物タイプ時系列分類タスクでは、提案モデルがmIoU 0.466、mAcc 67.68%と最高の性能を示した。
Zitate
"時系列衛星データの特徴として、時間的不規則性や不連続性があり、既存の3D VITモデルの性能が期待通りにならない可能性がある。そのため、本研究ではこの問題に取り組むことを目的とする。"
"提案手法では、エンコーダとデコーダの両方を保持し、スキップ接続を加えたST-SwinUNetアーキテクチャを提案する。これにより、下位層の空間情報を上位層に伝達し、多尺度特徴表現を実現する。"
"提案モデルDegas 100Mは、PhilEO Benchのランドカバー分類タスクで既存モデルと比べて平均10.4%高い精度を示した。これは提案アーキテクチャと事前学習の有効性を示している。"