Core Concepts
Entwicklung und Bewertung von Methoden zur Erkennung von flüssigen, aber ungenauen Ausgaben von Systemen zur natürlichen Sprachgenerierung.
Abstract
Dieser Artikel präsentiert die Ergebnisse des SHROOM-Shared-Task, der sich auf die Erkennung von Halluzinationen konzentriert: Ausgaben von Systemen zur natürlichen Sprachgenerierung (NLG), die flüssig, aber ungenau sind. Solche Fälle von Übergeneration gefährden viele NLG-Anwendungen, bei denen Korrektheit oft von entscheidender Bedeutung ist.
Der Shared Task wurde mit einem neu erstellten Datensatz von 4.000 Modellausgaben durchgeführt, die von jeweils 5 Annotatoren gekennzeichnet wurden und 3 NLP-Aufgaben abdecken: maschinelle Übersetzung, Paraphrasengenerierung und Definitionsmodellierung.
Insgesamt nahmen 58 verschiedene Nutzer, die in 42 Teams organisiert waren, an dem Shared Task teil, von denen 27 sich entschieden, einen Systembeschreibungsartikel zu schreiben. Die Teilnehmer reichten über 300 Vorhersagesätze auf beiden Tracks des Shared Task ein. Es wurden einige Schlüsseltrends beobachtet, wie z.B. dass viele Teilnehmer auf eine Handvoll Modelle setzen und oft entweder auf synthetische Daten für das Finetuning oder Zero-Shot-Prompting-Strategien zurückgreifen. Während die Mehrheit der Teams unser vorgeschlagenes Baseline-System übertraf, sind die Leistungen der bestplatzierten Systeme immer noch mit einem zufälligen Umgang mit den herausforderenderen Elementen vereinbar.
Stats
Die Mehrheit der Teilnehmer (64 bis 71%) übertraf unser vorgeschlagenes Baseline-System.
Die Leistungen der bestplatzierten Systeme sind immer noch mit einem zufälligen Umgang mit den herausforderenderen Elementen vereinbar.
Quotes
"Solche Fälle von Übergeneration gefährden viele NLG-Anwendungen, bei denen Korrektheit oft von entscheidender Bedeutung ist."
"Viele Teilnehmer setzen auf eine Handvoll Modelle und greifen oft entweder auf synthetische Daten für das Finetuning oder Zero-Shot-Prompting-Strategien zurück."