本研究は、地球観測システムにおける衛星画像分類の高精度かつ効率的な実現を目的としている。従来の畳み込みニューラルネットワーク(CNN)ベースのモデルに加え、近年注目を集めているビジョントランスフォーマー(ViT)モデルを比較検討した。
実験では、CNNベースモデル、ResNetベースモデル、各種ViTモデルを評価した。その結果、事前学習ViTモデルが、特にMobileViTV2とEfficientViT-M2が、精度、効率性、ノイズに対するロバスト性の面で優れていることが示された。
MobileViTV2は清浄なデータに対して最高の精度を示したが、EfficientViT-M2はノイズの多い環境でもより高いロバスト性を発揮した。このため、EfficientViT-M2がオンボード衛星画像分類に最適なモデルと判断された。
EfficientViT-M2は98.76%の高精度を達成し、学習効率(1,000秒)と推論時間(10秒)も優れている。さらに、ノイズに対するロバスト性スコアも0.79と高い値を示した。
このように、EfficientViT-M2は、高精度、高効率、高ロバスト性を兼ね備えており、リソース制限の厳しい衛星搭載環境においても信頼性の高い画像分類を実現できる優れたモデルである。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問