本論文では、高解像度リモートセンシングデータの意味的セグメンテーションを目的とした新しい軽量多モーダルデータ融合ネットワーク「LMFNet」を提案している。LMFNetは、RGB、NIR、DSMなどの複数のデータタイプを同時に入力として受け付け、重み共有マルチブランチビジョントランスフォーマーを用いて効率的な特徴抽出を行う。提案する多モーダル融合モジュールは、マルチモーダル特徴融合再構築層とマルチモーダル特徴自己注意融合層から構成され、多様なデータタイプの特徴を再構築・融合することができる。
実験では、US3D、ISPRS Potsdam、ISPRS Vaihingenの3つのデータセットで評価を行った。US3Dデータセットでは、提案手法LMFNetが85.09%のmIoUを達成し、既存手法を大きく上回る性能を示した。単一モーダル手法と比べて10%のmIoU向上を実現しつつ、パラメータ数は僅か0.5M増加にとどまった。また、2モーダル手法と比べても0.46ポイントのmIoU向上を示した。LMFNetは、スケーラビリティと高精度を両立しつつ、パラメータ効率も良好であり、リモートセンシングの土地被覆分類タスクへの幅広い適用が期待できる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Tong Wang,Gu... alle arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13659.pdfDomande più approfondite