Dieser Artikel untersucht die Leistungsgrundlagen von Großsprachmodellen (LLMs) bei der Verbesserung ihrer Leistung durch Feinabstimmung, retrieval-unterstützte Generierung (RAG) und Systempromoter.
Die Autoren testeten eine unveränderte Version von GPT-3.5, eine feinabgestimmte Version und dieselbe unveränderte Version mit Zugriff auf eine vektorisierte RAG-Datenbank, sowohl isoliert als auch in Kombination mit einem einfachen, nicht-algorithmischen Systempromoter. Sie testeten die Fähigkeit der Modelle, eine Reihe von 100 Fragen zu beantworten, die sich hauptsächlich auf Ereignisse beziehen, die nach September 2021 stattfanden (dem Zeitpunkt, an dem der Trainingsdatensatz von GPT-3.5 endet).
Die Ergebnisse zeigen, dass die RAG-Methode sowohl die feinabgestimmte als auch die unveränderte Version übertrifft. Darüber hinaus verbesserte der Einsatz eines Systempromoters die Leistung jedes Ansatzes deutlich. Die feinabgestimmte Version erwies sich als anfälliger für Halluzinationen als das Basismodell, was darauf hindeutet, dass die Feinabstimmung die vom Modell erlernten Verhaltensweisen untergraben kann.
Insgesamt zeigen die Ergebnisse, dass für Nicht-Experten die RAG-Methode mit Systempromoter die beste Leistung bietet, während die Feinabstimmung zwar eine Verbesserung gegenüber dem Basismodell darstellt, aber mit Vorsicht eingesetzt werden muss.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Jennifer Dod... às arxiv.org 03-20-2024
https://arxiv.org/pdf/2311.05903.pdfPerguntas Mais Profundas