Die Studie untersucht die geometrischen Eigenschaften feinabgestimmter Modellgewichte und zeigt, dass diese auf einer dünnen Schale im Gewichtsraum liegen. Die Nähe der Gewichte zum Zentrum dieser Verteilung korreliert stark mit der Leistung auf In-Distribution- und Out-of-Distribution-Aufgaben.
Basierend auf diesen Erkenntnissen stellen die Autoren eine neue Methode namens "Model Stock" vor, die effizient ein optimiertes Durchschnittsgewicht aus nur wenigen feinabgestimmten Modellen berechnet. Im Gegensatz zu aufwendigen Ansätzen wie "Model Soup" benötigt Model Stock nur zwei Feinabstimmungen, um eine vergleichbare oder sogar bessere Leistung zu erzielen.
Die Autoren zeigen die Wirksamkeit von Model Stock auf verschiedenen CLIP-Modellen und Benchmarks. Dabei übertrifft Model Stock die Leistung von Einzelmodellen sowie aufwendigere Methoden wie Model Soup bei deutlich geringerem Rechenaufwand.
Darüber hinaus bietet die Studie neue Erkenntnisse, die das Verständnis und die Optimierung des Feinabstimmungsprozesses in Zukunft verbessern können.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Dong-Hwan Ja... às arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19522.pdfPerguntas Mais Profundas