核心概念
大規模マルチモーダルモデルは、医療診断に関する特殊な質問に対して、ランダムな推測よりも低い精度を示す。
要約
本研究は、大規模マルチモーダルモデル(LMM)の医療Visual Question Answering(Med-VQA)における信頼性を評価しています。
まず、既存の評価手法の信頼性を検証するため、単純な探索的評価手法を導入しました。この手法では、元の質問に否定形の質問を対にすることで、モデルが実際の所見を識別できるかどうかを評価します。その結果、GPT-4o、GPT-4V、Gemini Proなどの最先端モデルが、医療診断に関する特殊な質問に対して、ランダムな推測よりも低い精度を示すことが明らかになりました。
次に、ProbMedデータセットを開発し、LMMの医療診断能力を包括的に評価しました。ProbMedには、モダリティ認識、臓器同定、所見特定、異常検出、位置関係推論など、診断に必要な様々な側面を網羅する質問が含まれています。評価の結果、最高性能のモデルでさえ、特殊な診断質問に対して、ランダムな推測に近い精度しか示せないことが明らかになりました。
さらに、CheXagentモデルの分析から、特定の臓器に関する専門知識が重要であることが示唆されました。CheXagentは胸部X線画像のみで事前学習されていますが、同じ臓器の他のモダリティでも優れた性能を発揮しました。
本研究の結果は、医療診断における大規模マルチモーダルモデルの信頼性に重大な課題があることを示しています。より堅牢な評価手法の開発と、ドメイン固有の知識の活用が、信頼できるAIシステムの実現に不可欠であることを示唆しています。
統計
大規模マルチモデルの医療診断質問に対する精度は、ランダムな推測よりも低い。
GPT-4o、GPT-4V、Gemini Proの精度は、特殊な診断質問に対して35.78%も低下した。
CheXagentモデルは、同じ臓器の他のモダリティでも優れた性能を発揮した。
引用
"大規模マルチモーダルモデルは、医療診断に関する特殊な質問に対して、ランダムな推測よりも低い精度を示す。"
"本研究の結果は、医療診断における大規模マルチモーダルモデルの信頼性に重大な課題があることを示している。"
"より堅牢な評価手法の開発と、ドメイン固有の知識の活用が、信頼できるAIシステムの実現に不可欠である。"