Evaluierung und Verbesserung der Robustheit großer Sprachmodelle durch Variationen der Aufgabenstruktur für logisches Schlussfolgern
Große Sprachmodelle wie GPT-3.5 und GPT-4 zeigen zwar gute Leistungen bei logischen Schlussfolgerungsaufgaben in ihrer Originalform, aber ihre Leistung sinkt deutlich, wenn die Aufgabenstruktur verändert wird. Dies deutet darauf hin, dass die Modelle möglicherweise die Trainingsdaten auswendig gelernt haben und keine verallgemeinerbaren logischen Schlussfolgerungsfähigkeiten erworben haben.