Core Concepts
Die HAE-RAE Bench ist ein Datensatz, der entwickelt wurde, um die Fähigkeit von Sprachmodellen zur Erfassung koreanischer kultureller Kontexte und Kenntnisse zu beurteilen. Im Gegensatz zu herkömmlichen Bewertungssuiten, die sich auf Token- und Sequenzklassifizierung oder mathematisches und logisches Denken konzentrieren, zielt die HAE-RAE Bench darauf ab, die Fähigkeit von Modellen zur Erinnerung an koreanspezifisches Wissen und kulturelle Kontexte zu erfassen.
Abstract
Die Einführung erläutert, dass bestehende Bewertungsbemühungen für Sprachmodelle oft auf übersetzten Versionen englischer Datensätze oder übersetzungsspezifischen Benchmarks basieren, was die Erfassung der Besonderheiten, Nuancen und des spezifischen Wissens jedes Sprachkontexts erschwert.
Um diese Lücke für die koreanische Sprache zu schließen, stellt das Papier die HAE-RAE Bench vor, einen Datensatz, der entwickelt wurde, um Modelle herauszufordern, denen die koreanische kulturelle und kontextuelle Tiefe fehlt. Der Datensatz umfasst sechs Aufgaben in vier Bereichen: Wortschatz, Geschichte, Allgemeinwissen und Leseverständnis.
Die Evaluierungsergebnisse zeigen, dass multilinguale Sprachmodelle im Vergleich zu nativen koreanischen Modellen wie Polyglot-Ko bei der Lösung der HAE-RAE Bench schlechter abschneiden. Dies deutet darauf hin, dass die Fähigkeit, kulturspezifisches Wissen zu erlernen, eine Herausforderung für Sprachmodelle darstellt, die nicht speziell auf eine Sprache ausgerichtet sind.
Stats
Die durchschnittliche Fruchtbarkeitsrate (Anzahl der Subtoken pro Wort) ist für Modelle mit weniger Fokus auf Koreanisch höher.
Die Fruchtbarkeitsrate der HAE-RAE Bench ist höher als die des KoBEST-Benchmarks, was auf einen komplexeren Wortschatz hindeutet.
Quotes
Keine relevanten Zitate gefunden.