核心概念
Große Sprachmodelle (LLMs) haben Schwierigkeiten mit komplexen logischen Schlussfolgerungen, da sie logische Fehlschlüsse oft nicht richtig verstehen. Durch die Entwicklung eines Datensatzes zur Bewertung des Verständnisses logischer Fehlschlüsse (LFUD) und das Finetuning von LLMs damit, kann deren logische Schlussfolgerungsfähigkeit deutlich verbessert werden.
要約
Der Artikel untersucht, wie das Verständnis logischer Fehlschlüsse die logische Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) verbessern kann. Zunächst werden fünf konkrete Aufgaben zur Bewertung des Verständnisses logischer Fehlschlüsse (LFU) vorgestellt, die drei kognitive Dimensionen abdecken: WHAT (Identifikation und Klassifikation), WHY (Deduktion und Rückwärtsdeduktion) und HOW (Modifikation).
Basierend auf diesen Aufgaben wird dann ein neuer Datensatz, LFUD, entwickelt. Dafür werden zunächst Propositionen gesammelt, auf deren Grundlage Sätze mit 12 typischen logischen Fehlschlüssen von GPT-4 generiert werden. Für jede LFU-Aufgabe werden dann Instanzen auf Basis dieser Sätze synthetisiert.
Die Autoren zeigen, dass das Finetuning von LLMs mit LFUD deren logische Schlussfolgerungsfähigkeit in verschiedenen Benchmarks deutlich verbessert. Außerdem evaluieren sie die LFU-Fähigkeiten verschiedener LLMs direkt auf den LFUD-Aufgaben. Dabei schneidet GPT-4 am besten ab, während einfachere Modelle wie LLaMA-7B Schwierigkeiten haben.
統計
Große Sprachmodelle, die nur mit den Originaldaten finegetuned wurden, erreichen auf LogiQA eine Genauigkeit von 45,55%.
Durch Finetuning mit LFUD-Daten steigt die Genauigkeit auf LogiQA auf 47,90%.
Auf Reclor steigt die Genauigkeit von 47,20% ohne LFUD auf 50,20% mit LFUD-Finetuning.
Auf TaxiNLI verbessert sich die Genauigkeit von 68,54% ohne LFUD auf 73,70% mit LFUD-Finetuning.
Auf FOLIO erhöht sich die Genauigkeit von 61,76% ohne LFUD auf 66,18% mit LFUD-Finetuning.
引用
"Große Sprachmodelle (LLMs) haben Schwierigkeiten mit einigen komplexeren Schlussfolgerungsaufgaben, einschließlich logischer Schlussfolgerung."
"Ein nicht zu vernachlässigender Grund für die suboptimale Leistung von LLMs bei logischen Schlussfolgerungen ist, dass sie das richtige Verständnis logischer Fehlschlüsse übersehen."