Große Sprachmodelle können Essays analysieren und bewerten, aber ihre Leistung liegt hinter anderen Modellen zurück.