核心概念
大規模言語モデルの性能と人間のパフォーマンスに関する類似性を明らかにした。
要約
本コンテンツは、新しい大規模言語モデル(LLMs)の急速な発展に焦点を当て、医療LLM研究全体像を把握するために、トップLLMsを比較し、共通パターンを特定しています。874件のポーランド医師免許試験から収集された質問で8つの有名なLLMsをテストしました。結果として、LLMの正確さは相互に正の相関があり、人間のパフォーマンスとも相関がありました。また、最高スコアのLLMはGPT-4 Turboで82%であり、Med42、PaLM 2、MixtralおよびGPT-3.5がそれに続きました。
方法:
- LLMsテスト:874件の一意な質問で8つの有名なLLMsをテスト。
- 結果:LLM正確さは相互に正の相関がありました。
- ロジスティック回帰モデル:質問長とモデル信頼度と精度との関係を検証。
結果:
- LLMsは一般的に大きいほど性能が向上します。
- 質問長や最高確率は精度に影響します。
- 人間が難しいと判断した質問ほどLLMsも難しさを感じる傾向がある。
結論:
- 大規模な一般的なモデルが専門家向けモデルよりも優れていることが示唆されます。
- LLMsは人間と同様に得意・不得意分野があります。
統計
LLM正確さは相互に正の相関があった (0.29〜0.62)。
モデル性能は人間パフォーマンスとも相関していた (0.07〜0.16)。