Główne pojęcia
Durch die Minimierung der Normen der Jacobi- und Hessischen Matrizen in den Zwischenrepräsentationen von vortrainierten Sprachmodellen kann deren Robustheit, Generalisierung und Kalibrierung deutlich verbessert werden.
Streszczenie
Die Studie untersucht, wie die Förderung der Glättung der Darstellungen in vortrainierten Sprachmodellen (PLMs) durch Jacobi- und Hessische Regularisierung deren Robustheit, Generalisierung und Kalibrierung verbessern kann.
Zunächst wird der theoretische Hintergrund der Lipschitz-Stetigkeit erläutert, die ein Maß für die Glattheit von Funktionen ist und mit der Robustheit von neuronalen Netzen in Verbindung steht. Dann wird eine effiziente Schätzmethode für die Normen der Jacobi- und Hessischen Matrizen vorgestellt, um die Berechnung in hochdimensionalen Räumen zu ermöglichen.
Darauf aufbauend wird die Methode JACHESS eingeführt, die die Normen der Jacobi- und Hessischen Matrizen in den Zwischenrepräsentationen der PLMs minimiert, um deren Robustheit zu erhöhen. JACHESS nutzt dabei den kontinuierlichen Einbettungsraum der PLMs, um die Regularisierung auf die Eingaben anzuwenden. Zusätzlich wird eine zweiphasige Strategie verwendet, bei der zunächst die Modelle auf Trainingsdaten fein abgestimmt und dann auf zusätzlichen unmarkierten Daten regularisiert werden.
Die Evaluation auf dem GLUE-Benchmark zeigt, dass JACHESS die Generalisierung und Kalibrierung der PLMs deutlich verbessert und anderen Regularisierungsmethoden überlegen ist. Insbesondere bei größeren Modellen wie OPT-6.7b und LLaMA-2-7b sind die Verbesserungen signifikant. Zusätzliche Analysen untersuchen den Einfluss der Regularisierungsspanne und -stärke sowie die optimale Anzahl der geschätzten Hessischen Normen.
Statystyki
Die Modelle zeigen eine durchschnittliche Genauigkeit von 0,783 auf dem BERT-Datensatz, 0,739 auf OPT-125m, 0,846 auf OPT-1.3b, 0,870 auf OPT-6.7b* und 0,895 auf LLaMA-2-7b*, wenn JACHESS angewendet wird.
Die durchschnittlichen Brier-Scores betragen 0,184 für BERT, 0,204 für OPT-125m, 0,157 für OPT-1.3b, 0,094 für OPT-6.7b* und 0,089 für LLaMA-2-7b*, wenn JACHESS verwendet wird.
Cytaty
"Durch die Minimierung der Normen der Jacobi- und Hessischen Matrizen in den Zwischenrepräsentationen von vortrainierten Sprachmodellen kann deren Robustheit, Generalisierung und Kalibrierung deutlich verbessert werden."
"JACHESS surpassed standard fine-tuning and existing methods in improving model generalization and also bolstered the models' ability to quantify uncertainty, thereby yielding more reliable predictions."