Core Concepts
大規模言語モデルは医療問題解答タスクで優れた成績を収めているが、最新の医療知識の欠如や誤情報の生成といった課題が残されている。MedExpQAは医師が作成した正解と誤答の説明を含む多言語ベンチマークを提供し、大規模言語モデルの医療知識推論能力を評価する。
Abstract
本論文では、医療問題解答タスクにおける大規模言語モデルの性能を評価するための新しい多言語ベンチマーク「MedExpQA」を提案している。MedExpQAは、医師が作成した正解と誤答の説明を含む、これまでにない特徴を持つ。
具体的には以下の3つの特徴がある:
医師による正解と誤答の詳細な説明を含む
英語、フランス語、イタリア語、スペイン語の4言語をカバーする
大規模言語モデルの医療知識推論能力を評価するための様々な設定を提供する
実験では、最新の大規模言語モデルを用いて、医師による正解・誤答の説明を利用した場合と、自動的に取得した医療知識を利用した場合の性能を比較した。その結果、以下のことが明らかになった:
医師による正解・誤答の説明を利用した場合、大規模言語モデルの性能は大幅に向上する
自動的に取得した医療知識を利用しても、医師による説明ほどの性能向上は得られない
英語以外の言語(フランス語、イタリア語、スペイン語)での性能は英語に大きく劣る
これらの結果は、大規模言語モデルの医療知識推論能力の限界を示しており、特に多言語対応の課題が重要であることを示唆している。MedExpQAは、大規模言語モデルの医療分野での応用を促進し、その性能向上に貢献することが期待される。
Stats
医師による正解の説明の平均トークン数は170.25
医師による誤答の説明の平均トークン数は57.6
英語の臨床ケースの平均トークン数は115.4
スペイン語の臨床ケースの平均トークン数は140.3
イタリア語の臨床ケースの平均トークン数は142.2
フランス語の臨床ケースの平均トークン数は150.1