Die Studie untersucht das Problem, aus herkömmlich trainierten Modellen, die auf bekannten verzerrten Datensätzen trainiert wurden, entzerrte Subnetze zu finden, die sowohl die Zielaufgabe lösen als auch nicht auf die mit der Verzerrung verbundenen Informationen zurückgreifen.
Zunächst wird theoretisch analysiert, dass das Entfernen der Verzerrung nicht zwangsläufig zu einer Verbesserung der Leistung auf der Zielaufgabe führt. Wenn die als "Verzerrung" identifizierten Merkmale für die Lösung der Zielaufgabe erforderlich sind, führt ihre Entfernung zu einer Leistungseinbuße.
Anschließend wird die Methode "Finding Fantastic Weights" (FFW) vorgestellt, die ohne Feinabstimmung des Basismodells in der Lage ist, Parameter chirurgisch aus dem Modell zu entfernen und so ein unverzerrtes Subnetwerk zu enthüllen. FFW bietet sowohl eine unstrukturierte als auch eine strukturierte Variante, die Garantien für die verwendbaren verzerrten Informationen liefern.
Die Experimente auf drei gängigen Benchmarks zeigen, dass solche Subnetze existieren und zu Leistungen führen, die mit anderen State-of-the-Art-Ansätzen vergleichbar sind. Ein wichtiger Befund ist, dass die Subnetze sogar strukturiert sind, was zu Effizienzgewinnen führen kann. Dies verbindet die Spärlichkeits- und Entzerrungsgemeinschaften und ebnet den Weg für die Entwicklung energieeffizienterer Entzerrungsansätze.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Rémi... alle arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14200.pdfDomande più approfondite