Der Artikel präsentiert einen Ansatz für kontinuierliches Lernen, bei dem die Modellparameter zwischen aufeinanderfolgenden Aufgaben als Kombination aus taskspezifischen und taskadaptiven Parametern dargestellt werden. Die taskadaptiven Parameter werden dabei durch eine niedrigrangige Approximation modelliert, um den Parameterumfang gering zu halten.
Zunächst wird das Modell für die erste Aufgabe ohne Einschränkungen trainiert, um die Basisgewichte zu erhalten. Für nachfolgende Aufgaben wird dann eine niedrigrangige Gewichtsperturbation angewendet, um die Basisgewichte an die neue Aufgabe anzupassen. Dazu werden die taskspezifischen Parameter (Skalierungsmatrizen und niedrigrangige Restmatrix) durch Lösen eines Least-Squares-Problems initialisiert.
Um die Ränge der niedrigrangigen Approximation für jede Schicht zu bestimmen, wird eine Hessian-basierte Analyse durchgeführt. Dabei wird der Einfluss der niedrigrangigen Perturbation auf den empirischen Verlust abgeschätzt, um die Ränge so zu wählen, dass der Gesamtfehler minimiert wird. Zusätzlich wird eine Regularisierung und Ausdünnung der eingeführten Parameter angewendet, um das Modellwachstum zu kontrollieren.
Die experimentellen Ergebnisse auf verschiedenen Benchmarks zeigen, dass der vorgeschlagene Ansatz im Vergleich zu aktuellen Methoden bessere Leistung, Skalierbarkeit und Robustheit gegenüber der Reihenfolge der Aufgaben erreicht.
To Another Language
from source content
arxiv.org
สอบถามเพิ่มเติม