Core Concepts
Große Sprachmodelle können bei der Lösung offener domänenübergreifender Mehrfachfragen-Beantwortung irrelevante Antworten generieren. Um dieses Problem zu lösen, schlagen wir den Discriminate→Re-Compose→Re-Solve→Re-Decompose (Dr3)-Mechanismus vor, der die inhärenten Fähigkeiten von Großen Sprachmodellen nutzt, um irrelevante Antworten zu erkennen und zu korrigieren.
Abstract
Die Studie untersucht das Problem irrelevanter Antworten, das auftritt, wenn Große Sprachmodelle zur Lösung offener domänenübergreifender Mehrfachfragen-Beantwortung (ODMHQA) eingesetzt werden.
Zunächst wird die Bedeutung des ODMHQA-Problems erläutert und die Leistungsfähigkeit Großer Sprachmodelle in diesem Bereich hervorgehoben. Allerdings können diese Modelle auch irrelevante Antworten generieren, wenn sie versuchen, ODMHQA-Aufgaben zu lösen. Diese irrelevanten Antworten machen etwa ein Drittel der falschen Antworten aus, sind aber bisher wenig erforscht.
Um dieses Problem anzugehen, schlagen die Autoren den Dr3-Mechanismus vor, der aus zwei Hauptmodulen besteht:
Diskriminator: Nutzt die inhärenten Fähigkeiten Großer Sprachmodelle, um zu beurteilen, ob die generierten Antworten relevant sind oder nicht.
Korrektor: Führt schrittweise Korrekturen entlang der umgekehrten Schlussfolgerungskette durch (Re-Compose→Re-Solve→Re-Decompose), bis der Diskriminator eine relevante Antwort bestätigt.
Umfangreiche Experimente auf den Datensätzen HotpotQA und 2WikiMultiHopQA zeigen, dass der Dr3-Mechanismus die Häufigkeit irrelevanter Antworten um fast 13% reduziert und die Leistung bei Exact Match um fast 3% im Vergleich zur Baseline-Methode ohne Dr3-Mechanismus verbessert.
Zusätzliche Analysen untersuchen die Leistung des Diskriminators bei der Erkennung irrelevanter Antworten, die Wirksamkeit der einzelnen Korrektorkomponenten sowie den Zusammenhang zwischen irrelevanten Antworten und Faktoren wie der Anzahl der Teilfragen und den Fragetypen.
Stats
Etwa ein Drittel der falschen Antworten in ODMHQA sind als irrelevant identifiziert worden.
Der Dr3-Mechanismus reduziert die Häufigkeit irrelevanter Antworten um fast 13%.
Der Dr3-Mechanismus verbessert die Leistung bei Exact Match um fast 3% im Vergleich zur Baseline-Methode.
Quotes
"Große Sprachmodelle können bei der Lösung offener domänenübergreifender Mehrfachfragen-Beantwortung irrelevante Antworten generieren."
"Um dieses Problem anzugehen, schlagen wir den Discriminate→Re-Compose→Re-Solve→Re-Decompose (Dr3)-Mechanismus vor, der die inhärenten Fähigkeiten von Großen Sprachmodellen nutzt, um irrelevante Antworten zu erkennen und zu korrigieren."
"Umfangreiche Experimente auf den Datensätzen HotpotQA und 2WikiMultiHopQA zeigen, dass der Dr3-Mechanismus die Häufigkeit irrelevanter Antworten um fast 13% reduziert und die Leistung bei Exact Match um fast 3% im Vergleich zur Baseline-Methode ohne Dr3-Mechanismus verbessert."