Der Artikel untersucht, wie das Verständnis logischer Fehlschlüsse die logische Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) verbessern kann. Zunächst werden fünf konkrete Aufgaben zur Bewertung des Verständnisses logischer Fehlschlüsse (LFU) vorgestellt, die drei kognitive Dimensionen abdecken: WHAT (Identifikation und Klassifikation), WHY (Deduktion und Rückwärtsdeduktion) und HOW (Modifikation).
Basierend auf diesen Aufgaben wird dann ein neuer Datensatz, LFUD, entwickelt. Dafür werden zunächst Propositionen gesammelt, auf deren Grundlage Sätze mit 12 typischen logischen Fehlschlüssen von GPT-4 generiert werden. Für jede LFU-Aufgabe werden dann Instanzen auf Basis dieser Sätze synthetisiert.
Die Autoren zeigen, dass das Finetuning von LLMs mit LFUD deren logische Schlussfolgerungsfähigkeit in verschiedenen Benchmarks deutlich verbessert. Außerdem evaluieren sie die LFU-Fähigkeiten verschiedener LLMs direkt auf den LFUD-Aufgaben. Dabei schneidet GPT-4 am besten ab, während einfachere Modelle wie LLaMA-7B Schwierigkeiten haben.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yanda Li,Dix... a las arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04293.pdfConsultas más profundas