本文提出了一种交互式的Change-Agent, 由多层次变化解释(MCI)模型和大语言模型(LLM)组成。MCI模型作为Change-Agent的"眼睛", 能够同时实现像素级的变化检测和语义级的变化描述, 为综合变化解释提供基础。LLM作为Change-Agent的"大脑", 负责理解用户指令, 规划任务执行, 并提供深入的变化分析。
MCI模型包含两个分支:变化检测分支和变化描述分支。在两个分支中, 我们提出了双时相迭代交互(BI3)层, 利用局部感知增强(LPE)和全局差异融合注意力(GDFA)模块增强模型的特征表示能力。为训练MCI模型, 我们构建了LEVIR-MCI数据集, 包含双时相影像的变化掩膜和变化描述。
Change-Agent集成了MCI模型和LLM, 能够根据用户指令实现交互式的综合变化解释和深入分析, 如变化检测、变化描述、变化目标计数、变化原因分析等。实验结果表明, 该方法在变化检测和变化描述任务上都取得了优异的性能, 展现了Change-Agent在智能遥感应用中的广阔前景。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問