Основные понятия
Die Leistung von Continual-Learning-Algorithmen hängt stark von der Wahl der Hyperparameter ab. Die übliche Evaluierungsmethode, die die besten Hyperparameter für einen bestimmten Datensatz und Szenario sucht, führt zu einer Überschätzung der tatsächlichen Leistungsfähigkeit der Algorithmen. Eine realistische Evaluierung sollte zwei Phasen umfassen: eine Hyperparameter-Abstimmung auf einem Datensatz und eine anschließende Evaluierung auf einem anderen Datensatz im gleichen Szenario.
Аннотация
Der Artikel untersucht die Herausforderungen der üblichen Evaluierungsmethode für Continual-Learning-Algorithmen und schlägt ein neues zweiphasiges Evaluierungsprotokoll vor.
In der ersten Phase, der Hyperparameter-Abstimmung, werden für jeden Algorithmus die optimalen Hyperparameter auf Basis eines Datensatzes ermittelt. In der zweiten Phase, der Evaluierung, werden diese optimalen Hyperparameter dann auf einem anderen Datensatz im gleichen Szenario angewendet, und die Leistung dient als Bewertungsgrundlage.
Die Experimente zeigen, dass die übliche Evaluierungsmethode zu einer Überschätzung der Leistungsfähigkeit vieler state-of-the-art Continual-Learning-Algorithmen führt. Im Vergleich dazu schneiden einige ältere Baseline-Algorithmen in der vorgeschlagenen realistischeren Evaluierung besser ab. Dies unterstreicht die Notwendigkeit, das neue Evaluierungsprotokoll anzuwenden, um die tatsächliche Continual-Learning-Fähigkeit der Algorithmen besser einschätzen zu können.
Darüber hinaus analysieren die Autoren die Effizienz der Algorithmen in Bezug auf Modellgröße und Trainingszeit, was weitere Erkenntnisse über die praktische Anwendbarkeit der Algorithmen liefert.
Статистика
Die Leistung vieler state-of-the-art Continual-Learning-Algorithmen in der üblichen Evaluierungsmethode stammt aus einer Überanpassung an den spezifischen Datensatz und das Szenario.
In der realistischeren Evaluierung schneiden einige ältere Baseline-Algorithmen besser ab als die neuesten state-of-the-art-Algorithmen.
Modellexpansions-basierte Algorithmen wie FOSTER, BEEF und MEMO zeigen in der Evaluierung eine geringere Leistungsfähigkeit als der ältere DER-Algorithmus.
Цитаты
"Die Leistung vieler state-of-the-art Continual-Learning-Algorithmen in der üblichen Evaluierungsmethode stammt aus einer Überanpassung an den spezifischen Datensatz und das Szenario."
"In der realistischeren Evaluierung schneiden einige ältere Baseline-Algorithmen besser ab als die neuesten state-of-the-art-Algorithmen."
"Modellexpansions-basierte Algorithmen wie FOSTER, BEEF und MEMO zeigen in der Evaluierung eine geringere Leistungsfähigkeit als der ältere DER-Algorithmus."