Die Studie untersucht die geometrischen Eigenschaften feinabgestimmter Modellgewichte und zeigt, dass diese auf einer dünnen Schale im Gewichtsraum liegen. Die Nähe der Gewichte zum Zentrum dieser Verteilung korreliert stark mit der Leistung auf In-Distribution- und Out-of-Distribution-Aufgaben.
Basierend auf diesen Erkenntnissen stellen die Autoren eine neue Methode namens "Model Stock" vor, die effizient ein optimiertes Durchschnittsgewicht aus nur wenigen feinabgestimmten Modellen berechnet. Im Gegensatz zu aufwendigen Ansätzen wie "Model Soup" benötigt Model Stock nur zwei Feinabstimmungen, um eine vergleichbare oder sogar bessere Leistung zu erzielen.
Die Autoren zeigen die Wirksamkeit von Model Stock auf verschiedenen CLIP-Modellen und Benchmarks. Dabei übertrifft Model Stock die Leistung von Einzelmodellen sowie aufwendigere Methoden wie Model Soup bei deutlich geringerem Rechenaufwand.
Darüber hinaus bietet die Studie neue Erkenntnisse, die das Verständnis und die Optimierung des Feinabstimmungsprozesses in Zukunft verbessern können.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Dong-Hwan Ja... pada arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19522.pdfPertanyaan yang Lebih Dalam