Alapfogalmak
Durch den Einsatz einer modifizierten gewichteten Tschebyscheff-Skalierung und einer Augmented-Lagrange-Methode können Pareto-optimale Lösungen für Deep-Neuronale-Netzwerke mit mehreren Aufgaben effizient identifiziert werden, wobei gleichzeitig die Modellkomplexität durch Sparsifizierung reduziert wird.
Kivonat
Dieser Artikel präsentiert einen neuartigen Ansatz zur Bewältigung von Herausforderungen, die sich aus widersprüchlichen Optimierungskriterien in verschiedenen Deep-Learning-Kontexten ergeben. Die vorgeschlagene Multi-Objektiv-Optimierungstechnik verbessert die Effizienz und Anwendbarkeit des Trainings von Deep-Neuronalen-Netzwerken (DNNs) über mehrere Aufgaben hinweg, indem sie eine modifizierte gewichtete Tschebyscheff-Skalierung mit einer Augmented-Lagrange-Methode kombiniert.
Die Kernpunkte sind:
- Entwicklung eines Multi-Objektiv-Optimierungsverfahrens, das Pareto-optimale Lösungen für DNNs mit mehreren Aufgaben effizient identifiziert
- Einbeziehung der Modellkomplexität als sekundäres Optimierungsziel neben den Hauptaufgaben, um die Nachhaltigkeit von DNN-Modellen zu verbessern
- Einführung einer innovativen Multi-Task-Lernarchitektur namens "Monitored Deep Multi-Task Network (MDMTN)", die die Leistung im Vergleich zu konkurrierenden Methoden übertrifft
- Empirische Validierung auf dem MultiMNIST-Datensatz und einem neu eingeführten Cifar10Mnist-Datensatz, die die Machbarkeit erheblicher Netzwerkgrößenreduzierung bei gleichzeitiger Aufrechterhaltung zufriedenstellender Leistungsniveaus zeigt
Statisztikák
Die Sparsitätsrate (SR) des besten Modells auf MultiMNIST beträgt 57,26%, die Kompressionsrate (CR) 2,7 und die Parameterverteilung (PS) 1,15.
Das beste Modell auf Cifar10Mnist hat eine Sparsitätsrate von 29,31%, eine Kompressionsrate von 1,94 und eine Parameterverteilung von 1,37.
Idézetek
"Durch den Einsatz einer modifizierten gewichteten Tschebyscheff-Skalierung und einer Augmented-Lagrange-Methode können Pareto-optimale Lösungen für Deep-Neuronale-Netzwerke mit mehreren Aufgaben effizient identifiziert werden, wobei gleichzeitig die Modellkomplexität durch Sparsifizierung reduziert wird."
"Die vorgeschlagene MDMTN-Modellarchitektur übertrifft in allen Methoden konsistent die Leistung der HPS-, KDMTL- und MTAN-Architekturen, wobei der Leistungsgewinn in diesem Fall sogar noch deutlicher ausfällt."