Core Concepts
Diese Arbeit präsentiert TMLU, einen umfassenden Bewertungsrahmen zur Beurteilung der fortgeschrittenen Wissens- und Reasoning-Fähigkeiten von Sprachmodellen im Kontext des Taiwanischen Mandarins.
Abstract
Diese Arbeit konzentriert sich auf die Bewertung großer Sprachmodelle (LLMs) im Chinesischen Kontext, insbesondere für das Traditionelle Chinesisch, das in bestehenden Benchmarks stark unterrepräsentiert ist. Das Team stellt TMLU vor, einen ganzheitlichen Bewertungsrahmen, der speziell für die Beurteilung fortgeschrittener Wissens- und Reasoning-Fähigkeiten in LLMs im Kontext des Taiwanischen Mandarins entwickelt wurde.
TMLU besteht aus 37 Fächern in den Bereichen Sozialwissenschaften, MINT, Geisteswissenschaften, Taiwan-spezifische Inhalte und andere, die von der Mittelstufe bis zum Berufsniveau reichen. Darüber hinaus enthält TMLU manuell erstellte, kettenförmige Erklärungen, um die Bewertung der Reasoning-Fähigkeiten in LLMs zu erleichtern.
Um eine umfassende Ausgangsbasis zu schaffen, führen die Forscher umfangreiche Experimente und Analysen mit 24 fortgeschrittenen LLMs durch. Die Ergebnisse deuten darauf hin, dass chinesische Open-Weight-Modelle im Vergleich zu mehrsprachigen proprietären Modellen eine schlechtere Leistung zeigen, und dass Open-Weight-Modelle, die speziell für das Taiwanische Mandarin entwickelt wurden, hinter ihren Pendants für das Vereinfachte Chinesisch zurückbleiben. Die Erkenntnisse zeigen, dass es noch viel Raum für Verbesserungen gibt, und unterstreichen das Ziel von TMLU, die Entwicklung lokalisierter Taiwanisch-Mandarin-LLMs zu fördern.
Stats
Chinesische Open-Weight-Modelle zeigen im Vergleich zu mehrsprachigen proprietären Modellen eine schlechtere Leistung.
Open-Weight-Modelle, die speziell für das Taiwanische Mandarin entwickelt wurden, schneiden schlechter ab als ihre Pendants für das Vereinfachte Chinesisch.
Quotes
"Diese Arbeit konzentriert sich auf die Bewertung von LLMs im Chinesischen Kontext, insbesondere für das Traditionelle Chinesisch, das in bestehenden Benchmarks stark unterrepräsentiert ist."
"TMLU besteht aus 37 Fächern in den Bereichen Sozialwissenschaften, MINT, Geisteswissenschaften, Taiwan-spezifische Inhalte und andere, die von der Mittelstufe bis zum Berufsniveau reichen."
"Die Erkenntnisse zeigen, dass es noch viel Raum für Verbesserungen gibt, und unterstreichen das Ziel von TMLU, die Entwicklung lokalisierter Taiwanisch-Mandarin-LLMs zu fördern."