核心概念
中型言語モデルは大規模言語モデルに匹敵する臨床QAタスクの性能を示す可能性がある。
要約
本研究では、4つの中型言語モデル(BioGPT-large、BioMedLM、LLaMA 2、Mistral 7B)の臨床QAタスクにおける性能を評価した。
MedQAタスクでは、Mistral 7Bが最も高い成績(63.0%)を収めた。これは大規模モデルのMed-PaLMに迫る水準である。他のモデルも47%前後の精度を示した。
MultiMedQAの長文回答タスクでは、医師による評価で、Mistral 7Bが完成度、エラーフリー性、適切性などの指標で最も高い評価を得た。ただし、完全な医療レベルの回答を生成するには至っておらず、医師による監修が必要と考えられる。
全体として、中型言語モデルは臨床QAタスクで一定の性能を発揮する可能性が示された。さらなる改善のためには、より大規模で専門性の高いモデルの開発、質問応答データの拡充、推論機能の強化などが期待される。
統計
50,000 IUの1週間のビタミンD摂取は安全ではなく、下痢を引き起こす可能性がある。
ビタミンD過剰症の場合、電解質補充が必要になる可能性がある。
引用
「ビタミンD過剰症の場合、電解質補充が必要になる可能性がある。」