核心概念
大規模言語モデル (LLM) は目覚ましい進歩を遂げているものの、医療計算ツールの選択や使用など、複雑な臨床意思決定においては、人間の医療従事者の能力に依然として及ばない。
要約
医療計算ツールを用いた臨床意思決定におけるLLMと人間の比較
本研究論文は、大規模言語モデル (LLM) が複雑な臨床意思決定、特に医療計算ツールの選択と使用において、人間の医療従事者と同等の能力を発揮できるかどうかを検証している。
本研究は、LLMがリスク層別化、予後予測、疾患診断などの臨床シナリオにおいて、適切な医療計算ツールを選択できるかどうかを、人間の医療従事者のパフォーマンスと比較することを目的とした。
研究チームは、MDCalcから人気のある35の医療計算ツールを選び、PubMed Centralの症例報告から収集した患者データを用いて、質問応答データセット「MedQA-Calc」を作成した。このデータセットを用いて、GPT-4oを含む8つのLLMと、2名の医療研修医の計算ツール推奨能力を評価した。