Die Studie untersucht die Generalisierungs- und Robustheitsfähigkeiten großer Sprachmodelle (LLMs) bei logischen Schlussfolgerungsaufgaben. Die Autoren stellen fest, dass GPT-3.5 und GPT-4 zwar gute Leistungen auf den originalen Datensätzen zeigen, aber ihre Leistung deutlich abfällt, wenn die Aufgabenstruktur verändert wird. Dies legt nahe, dass die Modelle möglicherweise die Trainingsdaten auswendig gelernt haben und keine verallgemeinerbaren logischen Schlussfolgerungsfähigkeiten erworben haben.
Um die Robustheit der Modelle zu testen, entwickeln die Autoren drei neue Datensätze mit Variationen der Aufgabenstruktur: "ReClor-plus", "LogiQA-plus" und "LogiQAv2-plus". Diese Datensätze enthalten Untergruppen mit zufällig gemischten Antwortoptionen, mit der korrekten Antwort ersetzt durch "keine der anderen Optionen ist korrekt" und einer Kombination aus Mischen und Ersetzen.
Die Experimente zeigen, dass diese einfachen Änderungen die Leistung der Modelle stark beeinträchtigen. Trotz ihrer hohen Leistung auf den ursprünglichen öffentlich verfügbaren Datensätzen schneiden alle Modelle schlecht auf den neu erstellten Datensätzen ab.
Die Autoren zeigen auch, dass das Einführen von Aufgabenvariationen in den Trainingssatz die Leistung der Modelle sowohl auf den ursprünglichen als auch auf den entwickelten Datensätzen deutlich verbessern kann. Darüber hinaus zeigen sie, dass die Anwendung logikgesteuerter Datenerweiterung für das Finetuning und Prompting die Generalisierung sowohl in diskriminativen als auch in generativen Modellen verbessern kann und einen Weg zur Verbesserung ihrer Robustheit für Aufgaben mit logischem Schlussfolgern bietet.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문