Die Studie präsentiert eine neuartige Methode zum Training großer neuronaler Netzwerke, die als "Partitioniertes neuronales Netzwerk-Training" (PNN) bezeichnet wird. Anstatt das gesamte Netzwerk auf einmal zu trainieren, wird es in zwei oder mehr Teilnetze aufgeteilt, die unabhängig voneinander trainiert werden.
Für das Training der einzelnen Teilnetze werden synthetische Zwischenetiketten verwendet, die durch einen Zufallsprozess generiert werden. Dadurch entfällt der Kommunikationsaufwand zwischen den Teilnetzen, was den Trainingsprozess deutlich effizienter macht. Außerdem können die Hyperparameter für jedes Teilnetz individuell optimiert werden, was die Gesamtrechenleistung weiter reduziert.
Die Methode wurde an einem sechsschichtigen, voll verbundenen neuronalen Netzwerk auf dem erweiterten MNIST-Datensatz getestet. Die Ergebnisse zeigen, dass PNN eine ähnliche Testgenauigkeit wie herkömmliche Trainingsmethoden erreicht, aber den Speicher- und Rechenaufwand deutlich reduziert. Durch eine zusätzliche Nachtrainingsphasen kann die Genauigkeit weiter gesteigert werden.
Die Studie trägt dazu bei, den ressourcenintensiven Charakter des Trainings großer neuronaler Netze abzumildern und den Weg für eine effizientere Entwicklung von Deep-Learning-Modellen zu ebnen.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Ceva... om arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11204.pdfDiepere vragen