本コンテンツは、新しい大規模言語モデル(LLMs)の急速な発展に焦点を当て、医療LLM研究全体像を把握するために、トップLLMsを比較し、共通パターンを特定しています。874件のポーランド医師免許試験から収集された質問で8つの有名なLLMsをテストしました。結果として、LLMの正確さは相互に正の相関があり、人間のパフォーマンスとも相関がありました。また、最高スコアのLLMはGPT-4 Turboで82%であり、Med42、PaLM 2、MixtralおよびGPT-3.5がそれに続きました。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Andrew M. Be... kl. arxiv.org 03-12-2024
https://arxiv.org/pdf/2310.07225.pdfDybere Forespørgsler