Große Sprachmodelle (LLMs) haben Schwierigkeiten mit komplexen logischen Schlussfolgerungen, da sie logische Fehlschlüsse oft nicht richtig verstehen. Durch die Entwicklung eines Datensatzes zur Bewertung des Verständnisses logischer Fehlschlüsse (LFUD) und das Finetuning von LLMs damit, kann deren logische Schlussfolgerungsfähigkeit deutlich verbessert werden.
Durch die Einführung der Auflösungsableitung kann das vorgeschlagene Modell GFaiR komplexe logische Schlussfolgerungsszenarios besser handhaben und gleichzeitig die Zuverlässigkeit des Schlussfolgerungsprozesses erhöhen.
Große Sprachmodelle wie GPT-3.5 und GPT-4 zeigen zwar gute Leistungen bei logischen Schlussfolgerungsaufgaben in ihrer Originalform, aber ihre Leistung sinkt deutlich, wenn die Aufgabenstruktur verändert wird. Dies deutet darauf hin, dass die Modelle möglicherweise die Trainingsdaten auswendig gelernt haben und keine verallgemeinerbaren logischen Schlussfolgerungsfähigkeiten erworben haben.
Durch die Verwendung von Demonstrationen mit logischen Regeln und zugehörigen Beispielen können Sprachmodelle plausible Erklärungen für Schlussfolgerungsaufgaben über Wissensdatenbanken generieren. Die Ergebnisse zeigen, dass die Einschränkung der Ausgaben von Sprachmodellen und die Sicherstellung der Korrektheit der Zwischenschlussfolgerungen wichtig für die Leistung des Schlussfolgerns sind, was neue Erkenntnisse über kontextbasiertes Lernen liefert und einen Mechanismus zur Reduzierung von falschem Schlussfolgern durch symbolische Verifikation bietet.
Große Sprachmodelle haben Schwierigkeiten, logische Fehlschlüsse in ihren eigenen Schlussfolgerungen genau zu identifizieren, was die Gültigkeit von Selbstverifikationsmethoden infrage stellt.
Transformermodelle können leicht Scheinmuster in Daten erlernen und dadurch logisches Schlussfolgern umgehen. Dieser Artikel untersucht, wie Transformermodelle so trainiert werden können, dass sie a) logisches Schlussfolgern in Aussagenlogik approximieren und b) bekannte Denkfehler durch Scheinkorrelationen in den Trainingsdaten vermeiden.