Core Concepts
リモートセンシングのための強力な視覚言語基盤モデルであるRemoteCLIPを提案する。大規模なデータ拡張と事前学習により、リモートセンシングタスクにおいて優れた性能を発揮する。
Abstract
本研究では、リモートセンシングのための強力な視覚言語基盤モデルであるRemoteCLIPを提案している。
データ拡張の工夫:
既存のリモートセンシングデータセットを統合し、さらにUAV画像を加えることで、従来の13,000枚の画像-テキストペアを12倍の165,745枚に拡張した。
物体検出データセットの境界ボックス情報とセグメンテーションデータセットのマスク情報を、それぞれBox-to-Caption (B2C)とMask-to-Box (M2B)の手法を用いて、統一的な画像-テキストペアに変換した。
モデル設計:
大規模な視覚言語事前学習モデルCLIPをベースに、リモートセンシングデータで継続学習を行うことで、RemoteCLIPを構築した。
ResNet-50、ViT-Base-32、ViT-Large-14の3種類のバックボーンを用いて、モデルサイズの異なるRemoteCLIPを実装した。
評価:
16のリモートセンシングデータセットを用いて、zero-shot分類、線形プローブ、k-NN分類、few-shot分類、画像-テキスト検索、物体計数の7つのタスクで評価を行った。
特に、物体計数の新規ベンチマーク「RemoteCount」を提案し、RemoteCLIPの高い性能を実証した。
既存の手法と比較して、RSITMD、RSICDデータセットの検索タスクでそれぞれ9.14%、8.92%の大幅な精度向上を達成した。
Stats
画像の中心にある物体を説明する文章が生成されている。
画像の中心以外にある物体を説明する文章が生成されている。
画像に複数の物体が写っている場合、それらの物体を説明する文章が生成されている。
画像に10個以上の同一物体が写っている場合、正確な個数ではなく「多数の」などの表現が使われている。
Quotes
"リモートセンシングのための強力な視覚言語基盤モデルであるRemoteCLIPを提案する。"
"大規模なデータ拡張と事前学習により、リモートセンシングタスクにおいて優れた性能を発揮する。"
"物体検出データセットの境界ボックス情報とセグメンテーションデータセットのマスク情報を、それぞれBox-to-Caption (B2C)とMask-to-Box (M2B)の手法を用いて、統一的な画像-テキストペアに変換した。"