Kernekoncepter
AC-EVAL bewertet das Verständnis von antikem Chinesisch in großen Sprachmodellen.
Resumé
AC-EVAL wurde entwickelt, um das Verständnis von antikem Chinesisch in großen Sprachmodellen zu bewerten. Es umfasst 13 Aufgaben, die sich auf historische Fakten, Geographie, soziale Bräuche, Kunst, Philosophie, klassische Poesie und Prosa konzentrieren. Die Bewertung zeigt Verbesserungspotenzial, insbesondere im Bereich des Verständnisses von antiken Texten. Große Modelle wie ERNIE-Bot 4.0 und GLM-4 zeigten Genauigkeiten von über 70%. Chinesische Modelle übertreffen englische Modelle im antiken Chinesisch. Die Ergebnisse betonen die einzigartige Herausforderung, die antikes Chinesisch für Modelle wie GPT-4 darstellt.
Allgemeine Historische Kenntnisse
Modelle zeigen hohe Genauigkeit, da sie auf Fakten basieren.
GPT-4 und ERNIE-Bot 4.0 führen in dieser Kategorie.
Kurzes Textverständnis
Modelle erzielen höhere Genauigkeit als bei langen Texten.
Yi-34B-Chat zeigt bemerkenswerte Parameter-Effizienz.
Langtextverständnis
Modelle erzielen niedrigere Genauigkeit in dieser Kategorie.
Große Modelle wie GLM-4 und Qwen-max zeigen Verbesserungspotenzial.
Statistik
In unserer Bewertung erzielten ERNIE-Bot 4.0 und GLM-4 Genauigkeiten von über 70%.
Chinesische LLMs übertreffen englische Modelle im antiken Chinesisch.
Citater
"AC-EVAL zielt darauf ab, die Entwicklung von LLMs im Verständnis und in der Bildung des antiken Chinesisch voranzutreiben."