Umfassende Bewertung der chinesischen Alltagsvernunft von Großen Sprachmodellen
Wir stellen CHARM vor, den ersten Benchmark zur umfassenden und gründlichen Bewertung der Alltagsvernunft von Großen Sprachmodellen (LLMs) in Chinesisch, der sowohl global bekannte als auch chinesisch-spezifische Alltagsvernunft abdeckt. Wir evaluieren 7 englische und 12 chinesisch-orientierte LLMs auf CHARM und wenden 5 repräsentative Prompt-Strategien an, um die Reasoning-Fähigkeiten der LLMs zu verbessern. Unsere Ergebnisse zeigen, dass die Sprachausrichtung des LLMs und die Domäne der Aufgabe die Effektivität der Prompt-Strategie beeinflussen, was frühere Forschungsergebnisse bereichert. Wir haben eng miteinander verbundene Reasoning- und Memorisierungsaufgaben aufgebaut und festgestellt, dass einige LLMs Schwierigkeiten haben, chinesische Alltagsvernunft zu memorieren, was ihre Reasoning-Fähigkeit beeinträchtigt, während andere trotz ähnlicher Memorisierungsleistung Unterschiede im Reasoning zeigen. Wir haben auch die memorisierungsunabhängigen Reasoning-Fähigkeiten der LLMs bewertet und typische Fehler analysiert.