Der Artikel stellt ein zweistufiges iteratives Lernframework namens SPTNet vor, das sowohl Modellparameter (Modell-Finetuning) als auch Datenparameter (Prompt-Lernen) optimiert, um die Leistung bei der generalisierten Kategorieentdeckung zu verbessern.
In der ersten Phase wird das Backbone-Modell eingefroren und nur die Prompts angepasst. In der zweiten Phase werden die Prompt-Parameter fixiert und das Backbone-Modell mit einem kontrastiven Verlust aktualisiert, unter Verwendung eines erweiterten Datenpaares, das aus dem Rohbild und seiner prompteten Version besteht.
Darüber hinaus schlagen die Autoren eine neue Methode zur räumlichen Prompt-Abstimmung (SPT) vor, die die räumlichen Eigenschaften von Bilddaten berücksichtigt, um die Methode auf diskriminative Bildregionen zu fokussieren, die zwischen bekannten und unbekannten Kategorien übertragen werden können.
Die Experimente auf sieben Datensätzen zeigen, dass SPTNet eine durchschnittliche Genauigkeit von 61,4% auf dem SSB-Benchmark erzielt, was etwa 10% höher ist als der vorherige Stand der Technik. Dieser Leistungsgewinn wird durch Einführung von nur 0,117% zusätzlichen Parametern im Vergleich zum gesamten ViT-Base-Modell erreicht, was die Effizienz und Effektivität des Ansatzes demonstriert.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Hongjun Wang... um arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13684.pdfTiefere Fragen