Der Datensatz LuojiaHOG wurde entwickelt, um die Einschränkungen bestehender Datensätze für die Bildtext-Rückgewinnung in der Fernerkundung zu überwinden. Im Gegensatz zu den meisten bestehenden Datensätzen, die an feste oder gemischte Klassen gebunden sind und nur knappe Beschreibungen bieten, ist LuojiaHOG geospatial-bewusst, bietet detaillierte Bildunterschriften und verwendet ein erweiterbares Klassifizierungssystem, das mit OGC-Standards kompatibel ist.
Der Datensatz wurde durch eine hierarchische Stichprobenentnahme und automatische Beschriftungsmethoden erstellt. Er umfasst 94.856 Bilder, die in 131 Kategorien der dritten Ebene unterteilt sind, die wiederum 21 Kategorien der zweiten Ebene zugeordnet sind. Jedes Bild verfügt über mehrere detaillierte natürlichsprachliche Beschreibungen mit durchschnittlich 123,56 Wörtern und 6,95 Sätzen pro Beschreibung.
Umfassende Statistiken zeigen die Vielfalt der Stichprobenentnahme, die Menge der Beschriftungen und die Detailliertheit der Beschreibungen. Der Datensatz dient als Benchmark für verschiedene state-of-the-art-Modelle zur Bildtext-Rückgewinnung, darunter ALBEF, ALIGN, CLIP, FILIP, Wukong, GeoRSCLIP und das vorgestellte CISEN-Modell. CISEN erzielt die besten Ergebnisse mit einer WMAP@5 von 88,47% und 87,28% auf Aufgaben der dritten Ebene, was eine Verbesserung von etwa 1,3% bzw. 0,9% gegenüber der Baseline darstellt.
LuojiaHOG und CISEN können als grundlegende Ressource für zukünftige Forschung zur Bildtext-Ausrichtung in der Fernerkundung dienen und eine Vielzahl von Anwendungen im Bereich Vision-Sprache unterstützen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문