Der Artikel führt ein neues Bewertungsmaß namens ANLS* ein, das als Ersatz für bestehende ANLS-Metriken dienen kann. ANLS* kann eine Vielzahl von Aufgaben, einschließlich Informationsextraktion und Klassifizierung, für generative Sprachmodelle bewerten.
Der Artikel beginnt mit einer Einführung in die Herausforderungen bei der Bewertung generativer großer Sprachmodelle (GLLMs) im Vergleich zu diskriminativen Modellen. Dann wird die formale Definition des ANLS*-Maßes präsentiert, das Strings, Tupel, Listen und Wörterbücher sowie Kombinationen davon unterstützt.
Anschließend werden qualitative und quantitative Experimente zur Evaluierung des ANLS*-Maßes durchgeführt. Es werden verschiedene GLLMs und Prompt-Methoden über mehrere Datensätze hinweg bewertet. Die Ergebnisse zeigen, dass ANLS* ein geeignetes Maß für die Bewertung generativer Modelle ist und von der Community übernommen werden sollte. Außerdem wird deutlich, dass fortschrittliche Prompt-Techniken wie SFT die Leistung von GLLMs deutlich verbessern können.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Davi... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2402.03848.pdfPerguntas Mais Profundas