Core Concepts
Dieser Artikel vergleicht die Leistung von GPT-3.5 in seiner unveränderten Form, einer feinabgestimmten Version und derselben unveränderten Version mit Zugriff auf eine vektorisierte RAG-Datenbank, sowohl isoliert als auch in Kombination mit einem einfachen, nicht-algorithmischen Systempromoter. Die Ergebnisse zeigen, dass die RAG-Methode sowohl die feinabgestimmte als auch die unveränderte Version übertrifft, und dass der Einsatz eines Systempromoters die Leistung jedes Ansatzes deutlich verbessert.
Abstract
Dieser Artikel untersucht die Leistungsgrundlagen von Großsprachmodellen (LLMs) bei der Verbesserung ihrer Leistung durch Feinabstimmung, retrieval-unterstützte Generierung (RAG) und Systempromoter.
Die Autoren testeten eine unveränderte Version von GPT-3.5, eine feinabgestimmte Version und dieselbe unveränderte Version mit Zugriff auf eine vektorisierte RAG-Datenbank, sowohl isoliert als auch in Kombination mit einem einfachen, nicht-algorithmischen Systempromoter. Sie testeten die Fähigkeit der Modelle, eine Reihe von 100 Fragen zu beantworten, die sich hauptsächlich auf Ereignisse beziehen, die nach September 2021 stattfanden (dem Zeitpunkt, an dem der Trainingsdatensatz von GPT-3.5 endet).
Die Ergebnisse zeigen, dass die RAG-Methode sowohl die feinabgestimmte als auch die unveränderte Version übertrifft. Darüber hinaus verbesserte der Einsatz eines Systempromoters die Leistung jedes Ansatzes deutlich. Die feinabgestimmte Version erwies sich als anfälliger für Halluzinationen als das Basismodell, was darauf hindeutet, dass die Feinabstimmung die vom Modell erlernten Verhaltensweisen untergraben kann.
Insgesamt zeigen die Ergebnisse, dass für Nicht-Experten die RAG-Methode mit Systempromoter die beste Leistung bietet, während die Feinabstimmung zwar eine Verbesserung gegenüber dem Basismodell darstellt, aber mit Vorsicht eingesetzt werden muss.
Stats
"LayerZero ist ein Blockchain-Skalierbarkeitsprotokoll, das darauf abzielt, eine skalierbare und leistungsfähige Infrastruktur für dezentralisierte Anwendungen (dApps) zu schaffen."
"Die vom Systempromoter unterstützte RAG-Methode erzielte 81% korrekte Antworten, während das Basismodell und die feinabgestimmte Version nur etwa 20-30% korrekte Antworten lieferten."
Quotes
"Interessanterweise scheint die Feinabstimmung die vom RLHF-Prozess von OpenAI erlernten Verhaltensweisen des Modells zu untergraben."
"Für einen Nicht-Experten-Nutzer sind die Basisausgaben des RAG-Ansatzes - ob in Kombination mit einem einfachen Systempromoter oder allein - deutlich genauer als die Ausgaben der Standard-Feinabstimmungseinstellungen, bei einem ähnlichen Zeitaufwand und Aufwand."