Konsep Inti
Low-Rank-Anpassung (LoRA), eine parametereffiziente Finetuning-Methode, die eine niedrigrangige Anpassung von Gewichtsmatrizen nutzt, hat sich als eine weit verbreitete Technik zum Finetuning von vortrainierten Modellen wie großen Sprachmodellen und Diffusionsmodellen erwiesen. Diese Arbeit bietet die ersten theoretischen Erkenntnisse zur ausdrucksstarken Leistung von LoRA, indem sie zeigt, dass LoRA jedes Modell genau an ein kleineres Zielmodell anpassen kann, wenn der LoRA-Rang eine bestimmte Schwelle überschreitet.
Abstrak
Diese Arbeit analysiert theoretisch die ausdrucksstarke Leistung von Low-Rank-Anpassung (LoRA) für vollständig verbundene neuronale Netze (FNN) und Transformer-Netze (TFN).
Für FNN-Fälle zeigt sie, dass es einen minimalen LoRA-Rang gibt, bei dem ein gefrorenes Modell genau an ein Zielmodell angepasst werden kann. Wenn der LoRA-Rang niedriger ist, wird auch der Approximationsfehler charakterisiert.
Für TFN-Fälle wird gezeigt, dass ein gefrorenes Modell durch Anpassen der Aufmerksamkeitsgewichte mit einem Rang-( Einbettungsgröße/2 )-LoRA genau an ein Zielmodell der gleichen Größe angepasst werden kann.
Die Ergebnisse liefern wichtige theoretische Erkenntnisse darüber, wann und warum LoRA eine effektive Anpassung erreicht, und bieten Einblicke in die Hyperparameteroptimierung und Algorithmusentwicklung für LoRA.
Statistik
Das Zielmodell f kann durch ein gefrorenes Modell f0 mit einem LoRA-Rang von mindestens (Breite von f) × Tiefe von f / Tiefe von f genau dargestellt werden.
Für Transformer-Netze kann jedes Modell durch Anpassen der Aufmerksamkeitsgewichte mit einem Rang-( Einbettungsgröße/2 )-LoRA an ein Zielmodell der gleichen Größe angepasst werden.
Kutipan
"LoRA kann jedes Modell genau an ein kleineres Zielmodell anpassen, wenn der LoRA-Rang eine bestimmte Schwelle überschreitet."
"Für Transformer-Netze kann jedes Modell durch Anpassen der Aufmerksamkeitsgewichte mit einem Rang-( Einbettungsgröße/2 )-LoRA an ein Zielmodell der gleichen Größe angepasst werden."