Die Studie untersucht die geometrischen Eigenschaften feinabgestimmter Modellgewichte und zeigt, dass diese auf einer dünnen Schale im Gewichtsraum liegen. Die Nähe der Gewichte zum Zentrum dieser Verteilung korreliert stark mit der Leistung auf In-Distribution- und Out-of-Distribution-Aufgaben.
Basierend auf diesen Erkenntnissen stellen die Autoren eine neue Methode namens "Model Stock" vor, die effizient ein optimiertes Durchschnittsgewicht aus nur wenigen feinabgestimmten Modellen berechnet. Im Gegensatz zu aufwendigen Ansätzen wie "Model Soup" benötigt Model Stock nur zwei Feinabstimmungen, um eine vergleichbare oder sogar bessere Leistung zu erzielen.
Die Autoren zeigen die Wirksamkeit von Model Stock auf verschiedenen CLIP-Modellen und Benchmarks. Dabei übertrifft Model Stock die Leistung von Einzelmodellen sowie aufwendigere Methoden wie Model Soup bei deutlich geringerem Rechenaufwand.
Darüber hinaus bietet die Studie neue Erkenntnisse, die das Verständnis und die Optimierung des Feinabstimmungsprozesses in Zukunft verbessern können.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問