Die Arbeit analysiert die Konvergenz des kontinuierlichen Lernens mit Gradientenabstiegsverfahren. Es wird gezeigt, dass das Training aktueller Aufgaben zu einer kumulativen Verschlechterung der vorherigen Aufgaben führt.
Zunächst wird das kontinuierliche Lernen als nichtkonvexes Optimierungsproblem formuliert, bei dem der Datenzugriff auf vorherige Aufgaben eingeschränkt ist. Es werden zwei Terme definiert - der Überanpassungsterm Bt und der katastrophale Vergessensterm Γt - die den Konvergenzverlauf beeinflussen.
Es wird theoretisch gezeigt, dass der Vergessensterm Γt die Konvergenz der vorherigen Aufgaben beeinträchtigt. Um dies zu verhindern, wird eine adaptive Methode (NCCL) vorgeschlagen, die die Schrittweiten für vorherige und aktuelle Aufgaben anpasst. NCCL kann die gleiche Konvergenzrate wie die SGD-Methode erreichen, wenn der Vergessensterm bei jeder Iteration unterdrückt wird.
Schließlich wird gezeigt, dass NCCL die Leistung des kontinuierlichen Lernens gegenüber bestehenden Methoden für mehrere Bildklassifikationsaufgaben verbessert.
翻譯成其他語言
從原文內容
arxiv.org
深入探究