Metadaten-kollaboratives Vision-Sprach-Repräsentationslernen für die semantische Segmentierung von Fernerkundungsbildern
Das vorgeschlagene MetaSegNet-Modell nutzt Metadaten-basierte Textaufforderungen und eine multimodale Vision-Sprache-Architektur, um die Zuverlässigkeit und Generalisierungsfähigkeit der semantischen Segmentierung von Fernerkundungsbildern zu verbessern.