Das Paper stellt eine neue Methode namens AttriCLIP vor, die kontinuierliches Lernen ermöglicht, ohne die Modellparameter zu erhöhen oder zusätzlichen Speicher für Wiederholungsdaten zu benötigen.
AttriCLIP basiert auf dem vortrainierten visuell-sprachlichen Modell CLIP. Es verwendet einen festen Bildencoder und Textencoder, um Merkmale aus Bildern und Texten zu extrahieren. Stattdessen werden nur die Textprompts aktualisiert, um sich an sequenziell ankommende Aufgaben oder Klassen anzupassen.
Dazu wird eine Attributwortbank eingeführt, die Bildattribute und deren Beschreibungswörter speichert. Basierend auf den Attributen des aktuellen Bildes werden relevante Prompts aus der Bank ausgewählt und trainiert. Dadurch können die Prompts textuelle Beschreibungen der Bildattribute lernen, ohne dass die Modellparameter inkrementell erhöht werden müssen.
Die Experimente zeigen, dass AttriCLIP im Vergleich zu anderen kontinuierlichen Lernmethoden, einschließlich CLIP-basierten Methoden, deutlich bessere Ergebnisse erzielt, insbesondere in Szenarien mit langer Sequenz und Domänenwechsel.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Runqi Wang,X... um arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.11488.pdfTiefere Fragen