Core Concepts
MELA präsentiert ein Benchmark für sprachliche Akzeptanzbewertung in 10 Sprachen, zeigt die Bedeutung von in-sprachlichen Daten und verbessert die Syntaxkapazität von XLM-R.
Abstract
MELA ist das größte Benchmark für sprachliche Akzeptanzbewertung, umfasst 48.000 Beispiele in 10 Sprachen. Es zeigt, dass GPT-4 mit feinabgestimmtem XLM-R vergleichbar ist. In-sprachliche Daten sind entscheidend für die Akzeptanzbewertung. Die Ergebnisse des Probing zeigen, dass das Training auf MELA die Leistung von XLM-R bei syntaxbezogenen Aufgaben verbessert.
Abstract
MELA ist das größte Benchmark für sprachliche Akzeptanzbewertung.
GPT-4 vergleichbar mit feinabgestimmtem XLM-R.
In-sprachliche Daten sind entscheidend für die Akzeptanzbewertung.
Einführung
Akzeptanzbewertungstest prüft die Fähigkeit von Sprachmodellen, syntaktisch akzeptable Sätze zu unterscheiden.
Linguistische Kompetenz wird als angeboren betrachtet.
Untersuchungen in der Computerlinguistik und Kognitionswissenschaft zur Hypothese der angeborenen Fähigkeiten.
Datenextraktion
MELA umfasst 48.000 Beispiele in 10 Sprachen.
GPT-4 zeigt vergleichbare Leistung mit feinabgestimmtem XLM-R.
Stats
Unsere Ergebnisse zeigen, dass GPT-4 mit feinabgestimmtem XLM-R vergleichbar ist, während offene, anweisungsfeinabgestimmte mehrsprachige Modelle hinter einem bemerkenswerten Abstand zurückbleiben.
Quotes
"Unsere Ergebnisse zeigen, dass GPT-4 mit feinabgestimmtem XLM-R vergleichbar ist."
"Training auf MELA verbessert die Leistung von XLM-R bei syntaxbezogenen Aufgaben."