In dieser Studie wird die Erkennung von faktischen Inkonsistenzen in Zusammenfassungen mit Hilfe von Large Language Models (LLMs) untersucht. Die Autoren vergleichen die Leistung von GPT-3.5 und GPT-4 auf dem SUMMAC-Datensatz und stellen eine neue Methode namens SIFiD vor.
Zunächst werden die Leistungen der GPT-Modelle auf Basis eines universellen Prompts evaluiert. Da sich die Anforderungen des Polytope-Benchmarks im SUMMAC-Datensatz von den anderen unterscheiden, wird ein angepasster Prompt-Template entwickelt, um die Leistung der Modelle zu verbessern.
Darüber hinaus präsentieren die Autoren SIFiD, eine neuartige Methode zur Erkennung von faktischen Inkonsistenzen. SIFiD identifiziert relevante Sätze im Dokument, indem es entweder Entailment-Scores oder semantische Ähnlichkeit zwischen Zusammenfassung und Dokumentsätzen berechnet. Nur diese relevanten Sätze werden dann für die weitere Analyse durch die LLMs verwendet, was die Effizienz und Effektivität der Erkennung von Inkonsistenzen erhöht.
Die Experimente zeigen, dass GPT-4 die GPT-3.5-Modelle deutlich übertrifft. Die Integration von SIFiD verstärkt die Leistung von GPT-4 zusätzlich, was die Stärke der vorgestellten Methode unterstreicht.
To Another Language
from source content
arxiv.org
Djupare frågor