核心概念
大規模言語モデル (LLM) は、技術的なMRIの質問に対し高い精度で回答できることが示されており、経験の浅いオペレーターをサポートし、画像の品質と一貫性を向上させる可能性があります。
要約
技術的なMRI質問応答における大規模言語モデルのパフォーマンス:比較研究
本研究は、MRIに関する技術的な質問に答える際に、様々な大規模言語モデル (LLM) の性能を体系的に評価することを目的としています。
標準的なレビューブックから抽出された570の技術的なMRIの質問に対して、様々なLLMの精度を評価しました。
質問は、基本原則、画像生成、安全性など、9つのMRIトピックを網羅していました。
OpenAIのo1 Preview、GPT-4o、GPT-4 Turbo、Claude 3.5 Haikuなどのクローズドソースモデルと、Phi 3.5 Mini、Llama 3.1、smolLM2などのオープンソースモデルをテストしました。
LangChainフレームワークを介して標準化されたプロンプトを使用してモデルにクエリを行い、自動スコアリングプロトコルを使用して正しい回答と比較して回答を評価しました。
正答率、つまり正答の割合を主要な評価項目としました。