In dieser Arbeit wird eine neue Methode zur Erstellung von Evaluierungsdatensätzen für Sprachmodelle vorgestellt. Die Methode ermöglicht es, für jede Sprache mit einer Übersetzung des Neuen Testaments einen Satz von Evaluierungsdatensätzen zu erstellen, die für die Bewertung von vortrainierten Sprachmodellen geeignet sind.
Der Schlüssel dazu ist die Ausrichtung der Bibelverse mit den Versen im englischen Teil von OntoNotes und anschließende Projektion der Annotationen aus dem Englischen in die Zielsprache, ohne manuelle Annotationen vorzunehmen.
Die Autoren wenden diese Methode auf 1051 Übersetzungen des Neuen Testaments in 859 Sprachen an und stellen die Datensätze öffentlich zur Verfügung. Darüber hinaus führen sie Experimente durch, die die Wirksamkeit ihrer Methode für die Erstellung von Evaluierungsaufgaben zur Beurteilung der Qualität von Sprachmodellen zeigen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Luke Gessler pada arxiv.org 03-29-2024
https://arxiv.org/pdf/2305.12612.pdfPertanyaan yang Lebih Dalam