Core Concepts
Sprachmodelle zeigen Halluzinationen in realen Szenarien, erfordern Bewertung und Verbesserung für Zuverlässigkeit.
Abstract
Inhaltsverzeichnis:
Einführung
Halluzinationen bei Sprachmodellen in kritischen Bereichen
Verwandte Arbeiten
Bewertung von Halluzinationen in traditionellen NLP-Aufgaben
Konstruktion von HaluEval-Wild
Sammlung herausfordernder Benutzeranfragen
Feingliedrige Kategorisierung von Anfragen
Bewertung mit Referenzantworten
Experimente
Evaluierung verschiedener Sprachmodelle auf HaluEval-Wild
Schlussfolgerung
Erkenntnisse zur Zuverlässigkeit von Sprachmodellen in realen Szenarien
Stats
Halluzinationsrate von Alpaca 7B: 99,20%
Halluzinationsrate von GPT-4 Turbo: 18,64%
Durchschnittliche Anfragenlänge nach Typ: OoS: 18,94 Wörter, CR: 46,72 Wörter, IC: 32,40 Wörter, BM: 29,45 Wörter, CE: 16,47 Wörter
Quotes
"Sprachmodelle zeigen eine höhere Tendenz zu Halluzinationen in realen Szenarien." - Gudibande et al. (2023)