Core Concepts
LLMは医療質問に印象的なパフォーマンスを示しているが、実際の臨床ケースの複雑さを捉えることができない。新しい評価基準の必要性が強調されている。
Abstract
大規模言語モデル(LLM)は、医師が複雑な臨床判断を行う際に支援するために、専門家によって書かれた説明付きの質問を含む2つの新しいデータセット、JAMA Clinical ChallengeとMedbulletsを構築した。これらのデータセットは従来の基準よりも難易度が高く、自動評価と人間評価の間で生成された説明に不一致があることが示唆されています。LLMは医療分野で有望な結果を示していますが、複雑な臨床ケースへの適用や説明生成における評価方法の改善が求められます。
Stats
LLMは医学資格試験で合格点を取得する能力を示している。
JAMA Clinical Challengeには1524件の臨床ケースが含まれており、各例には長いケース記述と質問、回答、説明が含まれています。
Medbulletsは308件のUSMLE Step 2/3形式の質問から成り立っており、各例にはケース記述、質問、回答選択肢、正解・不正解回答の説明が含まれています。
Quotes
"Models should be evaluated on their ability to correctly explain complex medical decisions in addition to making them."
"The inconsistency between automatic and human evaluations of model-generated explanations highlights the need for new metrics to support future research on explainable medical QA."