Der Artikel stellt LHRS-Bot, ein multimodales Sprachmodell (MLLM) vor, das speziell für Anwendungen in der Fernerkundung entwickelt wurde.
Zunächst wird ein großer Datensatz namens LHRS-Align erstellt, der 1,15 Millionen Fernerkundungsbilder mit zugehörigen Bildunterschriften verknüpft. Dieser Datensatz nutzt umfangreiche geografische Informationen aus freiwilligen Quellen (VGI) und weltweit verfügbare Fernerkundungsbilder, um ein breites Spektrum an semantischen Informationen zu Fernerkundungsbildern abzudecken.
Darüber hinaus wird ein Instruktionsdatensatz namens LHRS-Instruct entwickelt, der multimodale Instruktionsdaten für verschiedene Fernerkundungsaufgaben wie Klassifizierung, visuelle Fragestellung und visuelle Verankerung enthält.
Basierend auf diesen Datensätzen wird LHRS-Bot, ein MLLM für den Fernerkundungsbereich, entwickelt. LHRS-Bot verwendet eine neuartige Strategie zur Zusammenfassung von Mehrebenen-Bilddarstellungen und einen Curriculum-Lernansatz, um das inhärente Wissen der Datensätze optimal zu nutzen.
Umfassende Experimente zeigen, dass LHRS-Bot eine überlegene Leistung bei verschiedenen Fernerkundungsaufgaben erbringt und eine bemerkenswerte Fähigkeit zur Objekterkennung, Konversation und visuellen Schlussfolgerung innerhalb des Fernerkundungsbereichs aufweist.
Darüber hinaus wird ein Benchmark namens LHRS-Bench entwickelt, um die Leistung von Fernerkundungs-MLLMs umfassend und systematisch zu evaluieren.
翻譯成其他語言
從原文內容
arxiv.org
深入探究