Die Studie untersucht, wie sich verschiedene Prompt-Variationen auf die Vorhersagen und Genauigkeit großer Sprachmodelle auswirken. Die Autoren analysieren drei Arten von Variationen: Ausgabeformate, geringfügige Änderungen am Prompt und sogenannte "Jailbreaks".
Ausgabeformate: Die Autoren stellen fest, dass allein die Spezifikation eines bestimmten Ausgabeformats (z.B. JSON, CSV) zu erheblichen Änderungen in den Vorhersagen führen kann. Selbst die Verwendung der JSON-Checkbox-Funktion von ChatGPT führt zu mehr Änderungen als die einfache JSON-Spezifikation.
Geringfügige Änderungen: Auch kleine Änderungen am Prompt, wie das Hinzufügen eines Leerzeichens, können die Vorhersagen deutlich beeinflussen. Grußformeln oder das Hinzufügen von "Danke" am Ende führen ebenfalls zu vielen Änderungen. Am stärksten wirkt sich das Umformulieren des Prompts in einen Befehlssatz aus.
Jailbreaks: Die Verwendung von Jailbreaks, die darauf abzielen, die Inhaltsfilter des Sprachmodells zu umgehen, führt zu den größten Änderungen. Bestimmte Jailbreaks wie "AIM" und "Dev Mode V2" führen bei ChatGPT in bis zu 90% der Fälle zu ungültigen Antworten. Andere Jailbreaks wie "Evil Confidant" und "Refusal Suppression" führen zu einem Genauigkeitsverlust von über 10 Prozentpunkten.
Die Autoren analysieren auch die Ähnlichkeit der Vorhersagen zwischen den verschiedenen Prompt-Variationen und finden, dass Jailbreaks am stärksten von den anderen Variationen abweichen. Abschließend untersuchen sie den Zusammenhang zwischen Annotatorenunsicherheit und der Wahrscheinlichkeit, dass sich die Vorhersagen ändern, finden aber nur einen schwachen Zusammenhang.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Abel Salinas... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2401.03729.pdfDeeper Inquiries