核心概念
Qualitative Datenanalyse mit Large Language Models birgt Herausforderungen und erfordert eine task-spezifische Bewertung.
統計
Die Modelle GPT-3.5 und GPT-4 zeigen unterschiedliche Übereinstimmungsraten mit menschlichen Codierern.
GPT-3.5 führte in einer Aufgabe 47 neue, falsche Codes ein.
GPT-4 übertrifft GPT-3.5 in allen Aufgaben.
引用
"Wir plädieren für die Bewertung von LLMs auf einer task-spezifischen Basis."
"Die Wahl des Modells und des Few-Shot-Lernens sind entscheidend für die Codierungsleistung."