In der Studie werden 8 große Sprachmodelle auf 874 medizinische Fragen getestet. Die Genauigkeit der Modelle korreliert positiv miteinander und mit der menschlichen Leistung. Größere Modelle sind erfolgreicher, aber Architektur beeinflusst die Leistung. Fragenlänge und Modellvertrauen beeinflussen die Genauigkeit. Medizinische Jurisprudenz ist eine schwache Kategorie. Die Modelle zeigen gemeinsame Stärken und Schwächen.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Andrew M. Be... lúc arxiv.org 03-12-2024
https://arxiv.org/pdf/2310.07225.pdfYêu cầu sâu hơn