本文提出了CDChat,一個用於遙感影像變化描述的大型多模態模型。CDChat由三個主要組件組成:1)共享的視覺編碼器,用於提取雙時相影像特徵;2)一個雙層MLP連接器,用於將影像特徵投射到語言空間;3)一個大型語言模型,用於生成變化描述。
為了訓練CDChat,作者手動註釋了SYSU-CD數據集,獲得了雙時相影像之間變化的文本描述。此外,作者還利用Vicuna-v1.5生成了19,000個與變化描述相關的對話指令。
實驗結果表明,CDChat在SYSU-CD和LEVIR-CD數據集上的變化描述任務中均優於現有的大型多模態模型,ROUGE-L分數分別達到34.42%和23.86%。此外,CDChat還能夠較好地回答變化區域數量的問題,在SYSU-CD和LEVIR-CD上的準確率分別為68.97%和83.25%。
作者認為,現有的大型多模態模型在描述遙感影像變化方面存在困難,需要專門的指令數據集來提高性能。未來的工作可以擴展CDChat的功能,支持多時相影像序列和多傳感器遙感影像。
翻譯成其他語言
從原文內容
arxiv.org
深入探究