Das vorgeschlagene MetaSegNet-Modell nutzt Metadaten-basierte Textaufforderungen und eine multimodale Vision-Sprache-Architektur, um die Zuverlässigkeit und Generalisierungsfähigkeit der semantischen Segmentierung von Fernerkundungsbildern zu verbessern.


coremsg

metadaten-kollaboratives-vision-sprach-repräsentationslernen-für-die-semantische-segmentierung-von-fernerkundungsbildern


Metadaten-kollaboratives Vision-Sprach-Repräsentationslernen für die semantische Segmentierung von Fernerkundungsbildern