In dieser Arbeit wird ein einfaches, aber effektives Framework namens "Learning Prompt with Distribution-based Feature Replay" (LP-DiF) für Few-Shot-Klassen-Inkrementelles Lernen (FSCIL) vorgestellt.
Zunächst wird beobachtet, dass die Verwendung von CLIP für die Null-Schuss-Auswertung deutlich besser abschneidet als führende FSCIL-Methoden. Dann wird das Prompt-Tuning eingesetzt, um die Anpassungsfähigkeit weiter zu verbessern und kontinuierliches Lernen von sitzungsspezifischem Wissen zu ermöglichen.
Um zu verhindern, dass der lernbare Prompt altes Wissen vergisst, wird ein Pseudo-Feature-Replay-Ansatz vorgeschlagen. Dabei wird für jede Klasse eine Gaußsche Verteilung auf Featureebene geschätzt, indem sowohl echte Bildfeatures als auch synthetische Features aus einem VAE verwendet werden. Beim Training auf einer neuen Sitzung werden Pseudo-Features aus den alten Klassenverteilungen abgetastet und zusammen mit den Trainingsbildern der aktuellen Sitzung verwendet, um den Prompt zu optimieren und so neues Wissen zu erlernen, während altes Wissen beibehalten wird.
Umfangreiche Evaluierungen auf gängigen FSCIL-Benchmarks (CIFAR-100, CUB-200 und mini-ImageNet) und zwei vorgeschlagenen anspruchsvolleren Benchmarks (SUN-397 und CUB-200*) zeigen die Überlegenheit des LP-DiF-Ansatzes im Vergleich zum Stand der Technik.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zitong Huang... alle arxiv.org 04-08-2024
https://arxiv.org/pdf/2401.01598.pdfDomande più approfondite