本研究は、リモートセンシング画像の変化キャプションのための新しい多モーダルフレームワークを提案している。このフレームワークは、変化の重要な特徴と指示に基づいた学習(KCFI)によって、大規模言語モデルの能力を最大限に活用することを目的としている。
具体的には、以下の3つの主要な特徴がある:
変化の重要な特徴を抽出するモジュールを導入し、変化の重要領域を的確に特定する。さらに、変化の記述タスクと変化検出タスクを共同で最適化することで、変化の重要特徴の有効性と精度を高めている。
視覚的指示に組み込む特徴の組み合わせを探索し、変化の重要特徴のみを大規模言語モデルに入力することが最適であることを実験的に示している。
LEVIR-CC データセットでの評価実験により、提案手法が既存の変化キャプション手法を上回る性能を発揮することを実証している。
全体として、本研究は変化の重要特徴と大規模言語モデルの指示に基づく最適化により、リモートセンシング画像の変化を正確かつ詳細に記述することができる新しいアプローチを提案している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問