Concepts de base
ANLS* ist ein neues Maß zur Bewertung einer Vielzahl von Aufgaben, einschließlich Informationsextraktion und Klassifizierungsaufgaben, für generative Modelle.
Résumé
Der Artikel führt ein neues Bewertungsmaß namens ANLS* ein, das als Ersatz für bestehende ANLS-Metriken dienen kann. ANLS* kann eine Vielzahl von Aufgaben, einschließlich Informationsextraktion und Klassifizierung, für generative Sprachmodelle bewerten.
Der Artikel beginnt mit einer Einführung in die Herausforderungen bei der Bewertung generativer großer Sprachmodelle (GLLMs) im Vergleich zu diskriminativen Modellen. Dann wird die formale Definition des ANLS*-Maßes präsentiert, das Strings, Tupel, Listen und Wörterbücher sowie Kombinationen davon unterstützt.
Anschließend werden qualitative und quantitative Experimente zur Evaluierung des ANLS*-Maßes durchgeführt. Es werden verschiedene GLLMs und Prompt-Methoden über mehrere Datensätze hinweg bewertet. Die Ergebnisse zeigen, dass ANLS* ein geeignetes Maß für die Bewertung generativer Modelle ist und von der Community übernommen werden sollte. Außerdem wird deutlich, dass fortschrittliche Prompt-Techniken wie SFT die Leistung von GLLMs deutlich verbessern können.
Stats
"Traditionell waren diskriminative Modelle die vorherrschende Wahl für Aufgaben wie Dokumentklassifizierung und Informationsextraktion."
"Generative große Sprachmodelle (GLLMs) haben in letzter Zeit aufgrund ihrer verbesserten Zero-Shot-Fähigkeiten, die den Bedarf an einem nachgelagerten Datensatz und aufwendigem Fine-Tuning beseitigen, große Aufmerksamkeit erregt."
"Wir evaluieren 7 verschiedene Datensätze, 6 verschiedene GLLMs und 3 verschiedene Prompt-Methoden mit der ANLS*-Metrik."
"In 27 von 35 Fällen übertrifft SFT andere Techniken und verbessert den Stand der Technik, teilweise um bis zu 18 Prozentpunkte."
Citations
"Traditionell waren diskriminative Modelle die vorherrschende Wahl für Aufgaben wie Dokumentklassifizierung und Informationsextraktion."
"Generative große Sprachmodelle (GLLMs) haben in letzter Zeit aufgrund ihrer verbesserten Zero-Shot-Fähigkeiten, die den Bedarf an einem nachgelagerten Datensatz und aufwendigem Fine-Tuning beseitigen, große Aufmerksamkeit erregt."
"In 27 von 35 Fällen übertrifft SFT andere Techniken und verbessert den Stand der Technik, teilweise um bis zu 18 Prozentpunkte."