核心概念
Größere Sprachmodelle übertreffen kleinere Modelle, aber Architektur und Daten sind entscheidend.
摘要
In der Studie werden 8 große Sprachmodelle auf 874 medizinische Fragen getestet. Die Genauigkeit der Modelle korreliert positiv miteinander und mit der menschlichen Leistung. Größere Modelle sind erfolgreicher, aber Architektur beeinflusst die Leistung. Fragenlänge und Modellvertrauen beeinflussen die Genauigkeit. Medizinische Jurisprudenz ist eine schwache Kategorie. Die Modelle zeigen gemeinsame Stärken und Schwächen.
統計資料
LLM-Genauigkeiten korrelieren positiv paarweise (0,29 bis 0,62).
Modellleistung korreliert auch mit menschlicher Leistung (0,07 bis 0,16).
Top-Ausgabewahrscheinlichkeit und Frageumfang sind positive bzw. negative Prädiktoren der Genauigkeit.
引述
"Größere Modelle mögen eine höhere Genauigkeit haben, aber Daten und Architektur sind definitiv entscheidend."
"LLMs haben gemeinsame Stärken und Schwächen."