本コンテンツは、新しい大規模言語モデル(LLMs)の急速な発展に焦点を当て、医療LLM研究全体像を把握するために、トップLLMsを比較し、共通パターンを特定しています。874件のポーランド医師免許試験から収集された質問で8つの有名なLLMsをテストしました。結果として、LLMの正確さは相互に正の相関があり、人間のパフォーマンスとも相関がありました。また、最高スコアのLLMはGPT-4 Turboで82%であり、Med42、PaLM 2、MixtralおよびGPT-3.5がそれに続きました。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Andrew M. Be... lúc arxiv.org 03-12-2024
https://arxiv.org/pdf/2310.07225.pdfYêu cầu sâu hơn