Der Artikel untersucht, wie das Verständnis logischer Fehlschlüsse die logische Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) verbessern kann. Zunächst werden fünf konkrete Aufgaben zur Bewertung des Verständnisses logischer Fehlschlüsse (LFU) vorgestellt, die drei kognitive Dimensionen abdecken: WHAT (Identifikation und Klassifikation), WHY (Deduktion und Rückwärtsdeduktion) und HOW (Modifikation).
Basierend auf diesen Aufgaben wird dann ein neuer Datensatz, LFUD, entwickelt. Dafür werden zunächst Propositionen gesammelt, auf deren Grundlage Sätze mit 12 typischen logischen Fehlschlüssen von GPT-4 generiert werden. Für jede LFU-Aufgabe werden dann Instanzen auf Basis dieser Sätze synthetisiert.
Die Autoren zeigen, dass das Finetuning von LLMs mit LFUD deren logische Schlussfolgerungsfähigkeit in verschiedenen Benchmarks deutlich verbessert. Außerdem evaluieren sie die LFU-Fähigkeiten verschiedener LLMs direkt auf den LFUD-Aufgaben. Dabei schneidet GPT-4 am besten ab, während einfachere Modelle wie LLaMA-7B Schwierigkeiten haben.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yanda Li,Dix... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04293.pdfDeeper Inquiries