核心概念
Durch die Ausrichtung von Bibelübersetzungen auf den englischen OntoNotes-Datensatz können Evaluierungsdatensätze für 859 Sprachen erstellt werden, ohne manuelle Annotationen vorzunehmen.
摘要
In dieser Arbeit wird eine neue Methode zur Erstellung von Evaluierungsdatensätzen für Sprachmodelle vorgestellt. Die Methode ermöglicht es, für jede Sprache mit einer Übersetzung des Neuen Testaments einen Satz von Evaluierungsdatensätzen zu erstellen, die für die Bewertung von vortrainierten Sprachmodellen geeignet sind.
Der Schlüssel dazu ist die Ausrichtung der Bibelverse mit den Versen im englischen Teil von OntoNotes und anschließende Projektion der Annotationen aus dem Englischen in die Zielsprache, ohne manuelle Annotationen vorzunehmen.
Die Autoren wenden diese Methode auf 1051 Übersetzungen des Neuen Testaments in 859 Sprachen an und stellen die Datensätze öffentlich zur Verfügung. Darüber hinaus führen sie Experimente durch, die die Wirksamkeit ihrer Methode für die Erstellung von Evaluierungsaufgaben zur Beurteilung der Qualität von Sprachmodellen zeigen.
統計資料
Es wurden Evaluierungsdatensätze für 5 Aufgaben in 1051 Übersetzungen des Neuen Testaments in 859 Sprachen erstellt.
Das System zur Erstellung dieser Datensätze wurde veröffentlicht und kann von jedem verwendet werden, um den Datensatz auf weitere Sprachen mit Neues-Testament-Übersetzungen auszuweiten.
引述
"Evaluierungsdatensätze sind kritische Ressourcen für die Messung der Qualität von vortrainierten Sprachmodellen. Leider sind diese Ressourcen für die meisten Sprachen außer Englisch aufgrund der hohen Kosten für die Datensatzannotation sehr knapp, was es schwierig macht, die Qualität von Sprachmodellen zu beurteilen."
"Wir veröffentlichen Evaluierungsdatensätze für 5 Aufgaben über 1051 Übersetzungen des Neuen Testaments in 859 Sprachen."