本研究は、衛星画像と地上画像のペアデータを用いて、弱教師付き学習により、地理的位置に関する詳細な文章による記述をマッピングする手法「Sat2Cap」を提案している。従来の手法は特定の属性を予測するモデルに限定されていたが、Sat2Cap は自然言語による任意の記述をマッピングできる汎用的なフレームワークを実現している。
Sat2Cap は、地上画像のCLIP埋め込みを予測するように学習される。これにより、衛星画像から地上の詳細な概念を捉えることができる。また、日時情報を条件とすることで、時間変化する概念もモデル化できる。
実験の結果、Sat2Cap は従来のCLIPモデルよりも詳細な概念を学習できることが示された。Sat2Cap を用いて、自由な文章による記述に基づく零shot的なマッピングを行うことができ、時間変化する概念も捉えられることが確認された。さらに、Sat2Cap の埋め込みを用いて生成されるキャプションも、地上の詳細な様子をよりよく反映することが示された。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Aayush Dhaka... في arxiv.org 04-15-2024
https://arxiv.org/pdf/2307.15904.pdfاستفسارات أعمق