Diese Arbeit konzentriert sich auf die Bewertung großer Sprachmodelle (LLMs) im Chinesischen Kontext, insbesondere für das Traditionelle Chinesisch, das in bestehenden Benchmarks stark unterrepräsentiert ist. Das Team stellt TMLU vor, einen ganzheitlichen Bewertungsrahmen, der speziell für die Beurteilung fortgeschrittener Wissens- und Reasoning-Fähigkeiten in LLMs im Kontext des Taiwanischen Mandarins entwickelt wurde.
TMLU besteht aus 37 Fächern in den Bereichen Sozialwissenschaften, MINT, Geisteswissenschaften, Taiwan-spezifische Inhalte und andere, die von der Mittelstufe bis zum Berufsniveau reichen. Darüber hinaus enthält TMLU manuell erstellte, kettenförmige Erklärungen, um die Bewertung der Reasoning-Fähigkeiten in LLMs zu erleichtern.
Um eine umfassende Ausgangsbasis zu schaffen, führen die Forscher umfangreiche Experimente und Analysen mit 24 fortgeschrittenen LLMs durch. Die Ergebnisse deuten darauf hin, dass chinesische Open-Weight-Modelle im Vergleich zu mehrsprachigen proprietären Modellen eine schlechtere Leistung zeigen, und dass Open-Weight-Modelle, die speziell für das Taiwanische Mandarin entwickelt wurden, hinter ihren Pendants für das Vereinfachte Chinesisch zurückbleiben. Die Erkenntnisse zeigen, dass es noch viel Raum für Verbesserungen gibt, und unterstreichen das Ziel von TMLU, die Entwicklung lokalisierter Taiwanisch-Mandarin-LLMs zu fördern.
To Another Language
from source content
arxiv.org
Дополнительные вопросы