Die Studie untersucht den Einfluss von Instruktionssteuerung (IT) und Verstärkungslernen durch menschliches Feedback (RLHF) auf die Entscheidungsfindung und das Schlussfolgern in Sprachmodellen. Es werden drei grundlegende kognitive Verzerrungen untersucht: der Köder-Effekt, der Gewissheitseffekt und der Glaubenseffekt.
Die Ergebnisse zeigen, dass instruktionsgesteuerte Modelle wie Flan-T5, Mistral-Instruct, GPT3.5 und GPT4 stärkere kognitive Verzerrungen aufweisen als ihre vortrainierten Versionen. Dies deutet darauf hin, dass der Feinabstimmungsprozess, der darauf abzielt, die Leistung zu verbessern, unbeabsichtigt Verzerrungen in den Entscheidungsprozess einführt.
Die Ähnlichkeit zwischen den beobachteten Modellverzerrungen und den in der Kognitionsforschung etablierten menschlichen Verzerrungen legt nahe, dass die Feinabstimmung die Modelle dazu bringt, menschliches Entscheidungsverhalten nachzuahmen. Die Studie hebt die Notwendigkeit hervor, die Auswirkungen von Feinabstimmungsmethoden auf kognitive Verzerrungen in Sprachmodellen weiter zu untersuchen, um zuverlässigere und unvoreingenommenere Modelle zu entwickeln.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Itay Itzhak,... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.00225.pdfYêu cầu sâu hơn