SPTNet ist ein zweistufiges iteratives Lernframework, das sowohl Modellparameter (d.h. Modell-Finetuning) als auch Datenparameter (d.h. Prompt-Lernen) optimiert, um die Leistung bei der generalisierten Kategorieentdeckung zu verbessern. Darüber hinaus schlagen wir eine neuartige Methode zur räumlichen Prompt-Abstimmung (SPT) vor, die die räumlichen Eigenschaften von Bilddaten berücksichtigt, um die Methode auf Objektteile zu fokussieren, die zwischen bekannten und unbekannten Klassen übertragen werden können.
Durch die Nutzung von Textinformationen in Kombination mit visuellen Informationen kann die Genauigkeit der Kategorieentdeckung, insbesondere für zuvor unbekannte Kategorien, deutlich verbessert werden.