Die Studie untersucht, wie geografisch spezifisches Wissen die Leistung von Objekterkennungsmodellen über verschiedene Regionen hinweg verbessern kann.
Zunächst wird analysiert, ob das Hinzufügen von Ländernamen zu CLIP-Prompts (CountryInPrompt) oder das Abrufen von geografisch spezifischen Objektbeschreibungen aus einem großen Sprachmodell (CountryLLM) die Leistung auf geografisch diversen Datensätzen verbessern kann. Die Kombination beider Ansätze (CountryInPrompt+LLM) zeigt die besten Ergebnisse und übertrifft den Standard-CLIP-Prompt um bis zu 3,4 Prozentpunkte.
Darüber hinaus wird ein Verfahren zur Regularisierung von lernbaren Soft-Prompts (soft prompting) vorgestellt, um eine geografisch robuste Klassendarstellung zu erlernen. Dabei wird das geografisch vielfältige Wissen aus CountryInPrompt+LLM verwendet, um die Soft-Prompts zu regularisieren, wenn das Trainingsmaterial nur aus einer begrenzten Region stammt (z.B. Europa). Dieses Verfahren verbessert die Leistung auf Zielregionen (z.B. Afrika, Asien, Amerika) um bis zu 2,8 Prozentpunkte gegenüber anderen Soft-Prompting-Methoden. Interessanterweise übertrifft ein so regularisiertes Modell sogar ein Modell, das mit wenigen Beispielen aus der Zielregion trainiert wurde.
Die Ergebnisse zeigen, dass geografisch vielfältiges Wissen in Prompts eine vielversprechende Möglichkeit ist, um die geografische Robustheit von Objekterkennungsmodellen zu verbessern, insbesondere wenn nur begrenzte Trainingsdaten aus einer Region verfügbar sind.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kyle Buettne... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2401.01482.pdfDeeper Inquiries