Kernekoncepter
Durch das Trainieren des vortrainierten Modells nur auf der ersten Aufgabe und anschließendes Verfeinern der Darstellung zur Testzeit können die Stabilität und Plastizität des Modells für inkrementelles Klassenlernen ausgewogen gehalten werden.
Resumé
Der Artikel beschäftigt sich mit dem Thema des inkrementellen Klassenlernens (Class-Incremental Learning, CIL), bei dem ein Modell kontinuierlich neue Klassen lernt, ohne das zuvor Gelernte zu vergessen. Mit dem Aufkommen großer vortrainierter Modelle (PTMs) hat sich der Fortschritt in diesem Bereich beschleunigt, da die PTM-Darstellungen sehr übertragbar sind und nur eine kleine Menge an Parametern angepasst werden muss, um eine Spitzenleistung zu erzielen.
Allerdings führt das wiederholte Feintuning auf jeder neuen Aufgabe dazu, dass die reichhaltigen Darstellungen der PTMs zerstört werden und zu einem Vergessen früherer Aufgaben führen. Um einen Ausgleich zwischen Stabilität und Plastizität der PTMs für CIL zu finden, schlagen die Autoren einen neuartigen Ansatz vor, bei dem das Training auf jeder neuen Aufgabe eliminiert und stattdessen das PTM nur auf der ersten Aufgabe trainiert wird. Anschließend wird die Darstellung zur Inferenzzeit durch Test-Zeit-Anpassung (TTA) verfeinert.
Konkret schlagen die Autoren "Test-Zeit-Anpassung für inkrementelles Klassenlernen" (TTACIL) vor, bei dem zunächst die PTMs mit Adaptern auf der ersten Aufgabe feinabgestimmt werden. Dann werden in der Testphase ausschließlich die Layer-Norm-Parameter des PTM angepasst, um aufgabenspezifische Merkmale zu lernen, bevor das Modell wieder auf den angepassten Zustand zurückgesetzt wird. Dadurch wird kein Vergessen verursacht, während von den reichhaltigen PTM-Merkmalen profitiert wird. Darüber hinaus ist TTACIL durch Design robust gegenüber gängigen Datenverzerrungen.
Die Autoren zeigen, dass TTACIL den Stand der Technik in mehreren CIL-Benchmarks sowohl bei sauberen als auch bei verzerrten Daten übertrifft.
Statistik
Das vortrainierte ViT-B/16-Modell, das auf ImageNet-21K und ImageNet-1K feinabgestimmt wurde, wurde als Rückgrat verwendet.
Für die erste Aufgabe wurden die Adapter-Parameter mit SGD und einem anfänglichen Lernrate von 0.01 für 20 Epochen trainiert.
Für die Test-Zeit-Anpassung wurde ein Batchsize von 16 und 8 Augmentationen pro Testbeispiel verwendet. Es wurde nur ein Gradientenupdate pro Minibatch durchgeführt.
Citater
Keine relevanten Zitate identifiziert.