In dieser Arbeit untersuchen wir, wie LLMs mit Retrieval-gestützter Textgenerierung für kontroverse Themen verwendet werden können und schlagen Methoden vor, um Fehler in den angepassten LLM-Antworten zu erkennen.
Wir führen den NPOV-Antwortaufgabe ein, bei der das Modell Argumente für mehrere Perspektiven abruft und eine mehrperspektivische Antwort generiert, inspiriert vom Neutralitätsprinzip von Wikipedia. Wir verwenden ein deterministisches Argumentabruf-System und konzentrieren uns auf die Herausforderung der treuen Antwortgenerierung aus den bereitgestellten Argumenten.
Wir bauen einen Datensatz von Modell-Abfrage-Antwort-Paaren auf, die auf Argumenten von Britannicas ProCon basieren. Mit Hilfe von Experten-Annotatoren identifizieren wir Fälle von Halluzinationen und Abdeckungsfehlern. Wir schlagen dann Methoden vor, um solche Halluzinationen und Abdeckungsfehler zu erkennen, mit und ohne Zugriff auf manuell annotierte Daten.
Unsere Hauptergebnisse zeigen, dass mit Zugriff auf fehlerfreie Beispiele und Beispiele mit nur synthetischen Fehlern LLM-basierte Klassifikatoren ROC-AUCs von 95,3% bzw. 90,5% bei der Erkennung organischer Halluzinationen und Abdeckungsfehler erreichen können. Auch ohne Zugriff auf annotierte Daten können wir mit Salienz- und Wortüberlapp-Techniken ROC-AUCs von 84,0% bzw. 85,2% für Halluzinationen und Abdeckungsfehler erreichen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések