Die Genauigkeit von Modellen zur Schätzung der Bildgeolokation ist stark von der geografischen Verteilung der Trainingsdaten abhängig. Modelle, die hauptsächlich auf Daten aus dem Westen trainiert wurden, haben Schwierigkeiten, die Komplexität von unterrepräsentierten Regionen wie Afrika zu erfassen.
Entwicklung von Methoden zur Reduzierung geografischer Verzerrungen in Objekterkennungsmodellen, um eine fairere Leistung über verschiedene geografische Regionen hinweg zu erreichen.
Durch einen alternierenden Entfernungsprozess, der sowohl Pixel- als auch Token-Räume nutzt, können allgemeine Darstellungen gelernt werden, die sowohl für Bilderkennungs- als auch für Bildgenerierungsaufgaben geeignet sind.
Eine neuartige Methode für visuelle Gyroskope, die eine analytische Lösung mit einem lernbasierten Ansatz kombiniert, um eine genauere und effizientere Schätzung der Kamerarotation aus sphärischen Bildern zu ermöglichen.
RAVE ist ein neuartiger Ansatz zur Verwendung von CLIP-Führung für die Aufgabe der unüberwachten Backlight-Bildverbesserung. RAVE berechnet einen Residualvektor, der auf die CLIP-Einbettungen von Backlight- und gut beleuchteten Bildern aus dem Trainingsdatensatz basiert. Dieser Vektor wird dann verwendet, um das Bildverbesserungsnetzwerk während des Trainings anzuleiten, um Backlight-Bilder in Richtung des Raums der gut beleuchteten Bilder zu verschieben. Dieser Ansatz reduziert die Trainingszeit erheblich, stabilisiert das Training und erzeugt hochwertige verbesserte Bilder ohne Artefakte, sowohl im überwachten als auch im unüberwachten Trainingsregime.
Eine selbstüberwachte Methode namens "Learning to Rank Patches" (LTRP) wird vorgestellt, um Bildredundanz fair und effektiv zu reduzieren, indem Bildpatchs basierend auf ihrer semantischen Dichte bewertet und sortiert werden.
Ein semi-überwachtes Modell für die Entnebelung von Nachtaufnahmen, das räumliche und frequenzbasierte Informationen sowie eine realistische Helligkeitseinschränkung nutzt, um Dunst, Glühen und Rauschen in Nachtszenen effektiv zu behandeln.
Durch die Anpassung der Anzahl der abgerufenen Referenzbilder an die Ähnlichkeit der Abfrage-Bilder zur Referenzdatenbank kann die Rechenzeit für die visuelle Lokalisierung reduziert werden, ohne die Genauigkeit zu beeinträchtigen.
Durch das Aufbrechen der intrinsischen Beziehungen innerhalb von Bildern können konsistentere Aufmerksamkeitskarten über verschiedene Modelle hinweg erzeugt werden, was zu einer deutlich verbesserten Übertragbarkeit von adversarischen Beispielen führt.
Das vorgestellte Mehrkanalaufmerksamkeits-Assoziationsvorhersage-Netzwerk kann die Objektzustände auf effizientere Weise schätzen, indem es verschiedene Aufmerksamkeitsmechanismen nutzt, um kategoriebasierte semantische Merkmale für die Klassifizierung und lokale räumliche Details für die Regression zu erfassen.