Core Concepts
Durch die Verwendung von Ähnlichkeiten der ungrammatischen syntaktischen Struktur können die Leistungen von Großsprachmodellen bei der grammatikalischen Fehlerkorrektur deutlich verbessert werden.
Abstract
In diesem Artikel wird eine neuartige Strategie zur Auswahl von Beispielen im Kontext (in-context learning, ICL) für die grammatikalische Fehlerkorrektur (GEC) vorgestellt. Dabei wird die Ähnlichkeit der syntaktischen Struktur ungrammatischer Sätze genutzt, um die am besten geeigneten Beispiele aus dem Trainingsdatensatz auszuwählen.
Zunächst werden die Sätze im Trainingsdatensatz und im Testdatensatz mit einem speziell für GEC entwickelten Parser (GOPar) analysiert, um die syntaktische Struktur einschließlich der Fehlerinformationen zu erhalten. Anschließend werden zwei Algorithmen zur Berechnung der syntaktischen Ähnlichkeit, Tree Kernel und Polynomial Distance, verwendet, um die Beispiele mit der ähnlichsten Fehlerstruktur zum Testbeispiel auszuwählen.
Darüber hinaus wird ein zweistufiges Auswahlverfahren eingeführt, bei dem zunächst eine schnelle und allgemeine Methode wie BM25 oder BERT-Repräsentation verwendet wird, um die Kandidatenmenge stark einzugrenzen, bevor in der zweiten Stufe die leistungsfähigeren syntaxbasierten Methoden zum Einsatz kommen.
Die Experimente auf zwei gängigen englischen GEC-Datensätzen zeigen, dass die vorgeschlagenen ungrammatischen syntaxbasierten Methoden die Leistung von Großsprachmodellen deutlich verbessern können, mit Verbesserungen von bis zu 3 F0.5-Punkten im Vergleich zu herkömmlichen Methoden. Insbesondere die zweistufige Auswahl ermöglicht es, die Leistungsfähigkeit der Syntaxbasierter Methoden voll auszuschöpfen.
Stats
Die Autoren geben an, dass es keine Schlüsselmetriken oder wichtige Zahlen gibt, die sie extrahieren möchten.
Quotes
Die Autoren haben keine bemerkenswerten Zitate aus dem Artikel ausgewählt.