Die Studie untersucht den Einfluss von Instruktionssteuerung (IT) und Verstärkungslernen durch menschliches Feedback (RLHF) auf die Entscheidungsfindung und das Schlussfolgern in Sprachmodellen. Es werden drei grundlegende kognitive Verzerrungen untersucht: der Köder-Effekt, der Gewissheitseffekt und der Glaubenseffekt.
Die Ergebnisse zeigen, dass instruktionsgesteuerte Modelle wie Flan-T5, Mistral-Instruct, GPT3.5 und GPT4 stärkere kognitive Verzerrungen aufweisen als ihre vortrainierten Versionen. Dies deutet darauf hin, dass der Feinabstimmungsprozess, der darauf abzielt, die Leistung zu verbessern, unbeabsichtigt Verzerrungen in den Entscheidungsprozess einführt.
Die Ähnlichkeit zwischen den beobachteten Modellverzerrungen und den in der Kognitionsforschung etablierten menschlichen Verzerrungen legt nahe, dass die Feinabstimmung die Modelle dazu bringt, menschliches Entscheidungsverhalten nachzuahmen. Die Studie hebt die Notwendigkeit hervor, die Auswirkungen von Feinabstimmungsmethoden auf kognitive Verzerrungen in Sprachmodellen weiter zu untersuchen, um zuverlässigere und unvoreingenommenere Modelle zu entwickeln.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Itay Itzhak,... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.00225.pdfTiefere Fragen