本コンテンツは、新しい大規模言語モデル(LLMs)の急速な発展に焦点を当て、医療LLM研究全体像を把握するために、トップLLMsを比較し、共通パターンを特定しています。874件のポーランド医師免許試験から収集された質問で8つの有名なLLMsをテストしました。結果として、LLMの正確さは相互に正の相関があり、人間のパフォーマンスとも相関がありました。また、最高スコアのLLMはGPT-4 Turboで82%であり、Med42、PaLM 2、MixtralおよびGPT-3.5がそれに続きました。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Andrew M. Be... ที่ arxiv.org 03-12-2024
https://arxiv.org/pdf/2310.07225.pdfสอบถามเพิ่มเติม