Das Paper stellt eine neue Methode namens AttriCLIP vor, die kontinuierliches Lernen ermöglicht, ohne die Modellparameter zu erhöhen oder zusätzlichen Speicher für Wiederholungsdaten zu benötigen.
AttriCLIP basiert auf dem vortrainierten visuell-sprachlichen Modell CLIP. Es verwendet einen festen Bildencoder und Textencoder, um Merkmale aus Bildern und Texten zu extrahieren. Stattdessen werden nur die Textprompts aktualisiert, um sich an sequenziell ankommende Aufgaben oder Klassen anzupassen.
Dazu wird eine Attributwortbank eingeführt, die Bildattribute und deren Beschreibungswörter speichert. Basierend auf den Attributen des aktuellen Bildes werden relevante Prompts aus der Bank ausgewählt und trainiert. Dadurch können die Prompts textuelle Beschreibungen der Bildattribute lernen, ohne dass die Modellparameter inkrementell erhöht werden müssen.
Die Experimente zeigen, dass AttriCLIP im Vergleich zu anderen kontinuierlichen Lernmethoden, einschließlich CLIP-basierten Methoden, deutlich bessere Ergebnisse erzielt, insbesondere in Szenarien mit langer Sequenz und Domänenwechsel.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問