Der Artikel präsentiert LITCAB, einen leichtgewichtigen Kalibrierungsmechanismus für Sprachmodelle (LMs). LITCAB fügt eine einzelne lineare Schicht über der letzten Schicht des LMs hinzu, um die Ausgabelogits anzupassen und so die Kalibrierung zu verbessern.
Im Gegensatz zu herkömmlichen Kalibrierungsmethoden, die entweder auf Nachbearbeitung (z.B. Temperaturskala) oder auf dem Neutrainieren des gesamten Modells basieren, benötigt LITCAB nur etwa 2% zusätzliche Parameter und ist daher deutlich effizienter. LITCAB wird mit einem kontrastiven Max-Margin-Ziel trainiert, um die Wahrscheinlichkeiten für korrekte Ausgaben zu erhöhen und für inkorrekte Ausgaben zu senken.
Zur Evaluierung konstruieren die Autoren CAT, einen Benchmark mit acht Textgenerierungsaufgaben, die Antworten von Kurzsätzen bis hin zu Absätzen abdecken. LITCAB zeigt über alle Aufgaben hinweg eine deutlich verbesserte Kalibrierung im Vergleich zu Basislinien wie Temperaturskala, Label-Smoothing, Verbalisierung und Selbstkonsistenz.
Darüber hinaus führen die Autoren eine umfassende Evaluierung mit sieben gängigen, öffentlich zugänglichen Sprachmodellen durch. Dabei zeigen sich interessante Erkenntnisse: Größere Modelle innerhalb derselben Familie weisen zwar eine bessere Kalibrierung für Aufgaben mit kurzen Generierungen auf, nicht jedoch für längere Texte. Außerdem ist das kleinere GPT2-XL-Modell (1,5 Mrd. Parameter) besser kalibriert als größere Modelle anderer Familien. Darüber hinaus kann zusätzliches Finetuning, wie im Fall von Vicuna-13B, die Kalibrierung verschlechtern.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Xin Liu,Muha... ב- arxiv.org 03-14-2024
https://arxiv.org/pdf/2310.19208.pdfשאלות מעמיקות