Der Artikel befasst sich mit der Evaluierung von Continual-Learning-Algorithmen (CL-Algorithmen) und argumentiert, dass die übliche Evaluierungsmethode, die die besten Hyperparameter für einen bestimmten Datensatz und Szenario sucht, zu einer Überschätzung der tatsächlichen Leistungsfähigkeit der Algorithmen führt.
Um eine realistischere Evaluierung zu erreichen, schlagen die Autoren ein zweiphasiges Evaluierungsprotokoll vor:
Hyperparameter-Abstimmungsphase: In dieser Phase werden die optimalen Hyperparameter-Werte für jeden CL-Algorithmus auf einem Datensatz ermittelt.
Evaluierungsphase: In dieser Phase werden die CL-Algorithmen mit den zuvor ermittelten optimalen Hyperparametern auf einem anderen Datensatz evaluiert. Die Leistung in dieser Phase dient als Benchmark für die Bewertung der CL-Fähigkeit der Algorithmen.
Die Autoren führen Experimente auf CIFAR-100 und ImageNet-100 durch und zeigen, dass die Leistung vieler state-of-the-art CL-Algorithmen, die in früheren Studien berichtet wurden, auf eine Überanpassung an den verwendeten Datensatz und das Szenario zurückzuführen ist. Darüber hinaus zeigen einige der neuesten Algorithmen, die als state-of-the-art gelten, in dem vorgeschlagenen Evaluierungsprotokoll eine schlechtere Leistung als ältere Baseline-Algorithmen.
Die Ergebnisse unterstreichen die Notwendigkeit, das vorgeschlagene Evaluierungsprotokoll zu verwenden, um die tatsächliche CL-Fähigkeit der Algorithmen genauer beurteilen zu können.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania