Core Concepts
Große vortrainierte Vision- und Sprachmodelle wie ViT und CLIP können effektiv als Lerner für wenige Beispiele in inkrementellen Lernszenarien eingesetzt werden, wenn man geeignete Methoden zum Erhalt des Vorwissens und zur Aneignung neuen domänenspezifischen Wissens verwendet.
Abstract
Der Artikel untersucht die Anwendbarkeit großer vortrainierter Modelle wie Vision Transformer (ViT) und Contrastive Language-Image Pre-training (CLIP) für das Aufgabe des inkrementellen Lernens mit wenigen Beispielen (Few-Shot Class Incremental Learning, FSCIL).
FSCIL ist eine Aufgabe, bei der ein Modell neue Klassen inkrementell lernen muss, ohne dabei das zuvor Gelernte zu vergessen, wenn nur wenige Beispiele pro Klasse zur Verfügung stehen. Die Hauptherausforderungen sind katastrophales Vergessen und Überanpassung.
Bisherige Studien haben hauptsächlich flache Modelle wie ResNet-18 verwendet, um diese Herausforderungen zu adressieren. Obwohl die begrenzte Kapazität dieser Modelle Vergessen und Überanpassung abmildern kann, führt es zu unzureichendem Wissenstransfer während der inkrementellen Lernphasen mit wenigen Beispielen.
Der Artikel argumentiert, dass große Modelle wie Vision- und Sprachmodelle, die auf großen Datensätzen vortrainiert wurden, hervorragende Lerner für wenige Beispiele in inkrementellen Szenarien sein können.
Um dies zu untersuchen, schlagen die Autoren ein neues FSCIL-Framework namens PriViLege vor. PriViLege verwendet Techniken wie "Pre-trained Knowledge Tuning", "Entropy-based Divergence Loss" und "Semantic Knowledge Distillation Loss", um die Herausforderungen des katastrophalen Vergessens und der Überanpassung bei großen Modellen effektiv zu adressieren.
Umfangreiche Experimente zeigen, dass PriViLege die bestehenden State-of-the-Art-Methoden deutlich übertrifft, z.B. um +9,38% auf CUB200, +20,58% auf CIFAR-100 und +13,36% auf miniImageNet.
Stats
"Unsere Methode, PriViLege, zeigte eine bemerkenswerte Leistungssteigerung von etwa +9,38% in ALast und etwa +5,09% in AAvg gegenüber CEC auf CUB200."
"Unsere Methode zeigte auch hervorragende Leistung auf CIFAR-100, wo PriViLege etwa +20,58% in ALast und etwa +13,53% in AAvg gegenüber WaRP berichtete."
"Unsere Experimente zeigten konsistent bemerkenswerte Verbesserungen in ALast und ABase über alle Datensätze hinweg."
Quotes
"Große vortrainierte Modelle wie Vision Transformer (ViT) und Contrastive Language-Image Pre-training (CLIP) können effektiv als Lerner für wenige Beispiele in inkrementellen Lernszenarien eingesetzt werden, wenn man geeignete Methoden zum Erhalt des Vorwissens und zur Aneignung neuen domänenspezifischen Wissens verwendet."
"Unsere umfangreichen Experimente zeigen, dass unser Framework PriViLege die bestehenden State-of-the-Art-Methoden deutlich übertrifft."