本研究では、リモートセンシングの変化記述タスクのためのコンバーセーショナルアシスタント「CDChat」を提案している。
まず、SYSU-CDデータセットを手動でアノテーションし、bi-temporal衛星画像間の変化に関するテキスト記述を作成した。さらに、Vicuna-v1.5を用いて、変化検出に関する質問応答のインストラクションデータセットを自動生成した。
次に、LLaVA-1.5モデルをベースとしたCDChatアーキテクチャを提案した。CDChatは、bi-temporal画像の特徴を別々に抽出し、MLP connectorでそれらを言語空間に射影することで、変化記述に適したモデル構造となっている。
実験の結果、CDChatは既存のLMMsと比較して、SYSU-CDおよびLEVIR-CDデータセットの変化記述タスクにおいて大幅に優れた性能を示した。また、変化領域の数を数える課題でも良好な精度を達成した。
今後の展望として、CDChatの機能を拡張し、時系列の衛星画像や複数センサーのデータにも対応できるようにすることが挙げられる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Mubashir Nom... alle arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.16261.pdfDomande più approfondite