Core Concepts
ChatGPTの推論能力を評価し、スクリーニング推奨の説明を提供する可能性を実証することで、医療従事者とインテリジェントマシンの技術ギャップを埋める。
Abstract
本研究は、一般的な人工知能(AI)アプローチとは異なる、文脈に応じた関連性の高い応答と洞察を生み出す生成型AIに着目している。特に、ChatGPTを事例として取り上げ、その推論能力を評価し、乳がんスクリーニングのための推奨事項を説明する能力を実証することを目的としている。
研究では、監視下のプロンプトエンジニアリングアプローチを採用し、詳細な説明を強制することで、ChatGPTの推論能力を高めている。アメリカがん協会(ACS)のガイドラインから抽出したルールを、1つずつ確実にChatGPTに組み込むことで、エキスパートシステムシェルのように機能するよう訓練している。
50の合成ユースケースを用いて、ChatGPTのルール処理能力を評価した結果、構造化されたユースケースでは94%の正解率を示し、ルールの一貫した適用が確認された。一方、非構造化ユースケースでは82%の正解率であり、文脈の複雑さに起因する課題も明らかになった。
本研究は、ChatGPTのような生成型AIシステムに、説明可能性を強化することで、医療分野における意思決定支援システムの精度と透明性を高める可能性を示している。今後は、ドメイン専門家との協働により、より広範な知識とルールをChatGPTに組み込み、多様なユーザニーズに対応できるシステムの構築を目指す。
Stats
構造化ユースケースでは、50ケースのうち47ケースで1つのルールのみが適用され、3ケースで誤った推奨がなされた。
非構造化ユースケースでは、50ケースのうち46ケースで1つのルールのみが適用され、9ケースで誤った推奨がなされた。
Quotes
「生成型AIは、従来のルールベースシステムとは一線を画す柔軟性を持ち、文脈に応じた関連性の高い応答と洞察を生み出す可能性がある。」
「ChatGPTのような生成型AIシステムに説明可能性を強化することで、医療分野における意思決定支援システムの精度と透明性を高められる可能性がある。」