Grunnleggende konsepter
Qualitative Datenanalyse mit Large Language Models birgt Herausforderungen und erfordert eine task-spezifische Bewertung.
Statistikk
Die Modelle GPT-3.5 und GPT-4 zeigen unterschiedliche Übereinstimmungsraten mit menschlichen Codierern.
GPT-3.5 führte in einer Aufgabe 47 neue, falsche Codes ein.
GPT-4 übertrifft GPT-3.5 in allen Aufgaben.
Sitater
"Wir plädieren für die Bewertung von LLMs auf einer task-spezifischen Basis."
"Die Wahl des Modells und des Few-Shot-Lernens sind entscheidend für die Codierungsleistung."