In dieser Arbeit wird eine neue Methode zur Erstellung von Evaluierungsdatensätzen für Sprachmodelle vorgestellt. Die Methode ermöglicht es, für jede Sprache mit einer Übersetzung des Neuen Testaments einen Satz von Evaluierungsdatensätzen zu erstellen, die für die Bewertung von vortrainierten Sprachmodellen geeignet sind.
Der Schlüssel dazu ist die Ausrichtung der Bibelverse mit den Versen im englischen Teil von OntoNotes und anschließende Projektion der Annotationen aus dem Englischen in die Zielsprache, ohne manuelle Annotationen vorzunehmen.
Die Autoren wenden diese Methode auf 1051 Übersetzungen des Neuen Testaments in 859 Sprachen an und stellen die Datensätze öffentlich zur Verfügung. Darüber hinaus führen sie Experimente durch, die die Wirksamkeit ihrer Methode für die Erstellung von Evaluierungsaufgaben zur Beurteilung der Qualität von Sprachmodellen zeigen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Luke Gessler alle arxiv.org 03-29-2024
https://arxiv.org/pdf/2305.12612.pdfDomande più approfondite