Core Concepts
Dieser Artikel präsentiert DeepSample, eine Familie von stichprobenbasierten Testverfahren für Deep Neural Networks, die eine kostengünstige, vertrauenswürdige und fehlerexposierende Bewertung der Betriebsgenauigkeit ermöglichen.
Abstract
Der Artikel befasst sich mit dem Testen von Deep Neural Networks (DNN), um deren Genauigkeit in Betriebssituationen zu bewerten. Das Ziel ist es, einen möglichst kleinen, aber repräsentativen Testdatensatz auszuwählen, um eine unverzerrte, hochkonfidente Schätzung der DNN-Genauigkeit zu erhalten und gleichzeitig möglichst viele Fehlvorhersagen aufzudecken.
Der Artikel präsentiert DeepSample, eine Familie von stichprobenbasierten Testverfahren, die sich in der Stichprobenauswahl-Strategie und in den verwendeten Hilfsvariablen unterscheiden. Die Hilfsvariablen sollen Informationen über die Korrelation zwischen den Eingaben und der Genauigkeit liefern, um die Stichprobenauswahl zu verbessern.
Es werden fünf neue DeepSample-Techniken eingeführt, die mit drei verschiedenen Hilfsvariablen kombiniert werden. Diese werden umfassend mit drei bestehenden Techniken (SRS, CES, DeepEST) verglichen, sowohl für Klassifikations- als auch für Regressionstasks. Die Ergebnisse zeigen, dass die neuen DeepSample-Techniken in den meisten Fällen besser abschneiden als die bestehenden Verfahren, insbesondere bei der Aufdeckung von Fehlvorhersagen. Die Studie liefert Richtlinien für Praktiker und Forscher zur Auswahl geeigneter stichprobenbasierter Testverfahren für DNN.
Stats
Die Genauigkeit der getesteten DNN-Modelle liegt zwischen 57,4% und 94,8%.
Die Größe der Betriebsdatensätze variiert von 15.000 (CIFAR100) bis 60.500 (MNIST).
Die Stichprobengröße wird zwischen 50 und 800 Beispielen variiert.
Quotes
Keine relevanten Zitate identifiziert.