本研究では、4つの中型言語モデル(BioGPT-large、BioMedLM、LLaMA 2、Mistral 7B)の臨床QAタスクにおける性能を評価した。
MedQAタスクでは、Mistral 7Bが最も高い成績(63.0%)を収めた。これは大規模モデルのMed-PaLMに迫る水準である。他のモデルも47%前後の精度を示した。
MultiMedQAの長文回答タスクでは、医師による評価で、Mistral 7Bが完成度、エラーフリー性、適切性などの指標で最も高い評価を得た。ただし、完全な医療レベルの回答を生成するには至っておらず、医師による監修が必要と考えられる。
全体として、中型言語モデルは臨床QAタスクで一定の性能を発揮する可能性が示された。さらなる改善のためには、より大規模で専門性の高いモデルの開発、質問応答データの拡充、推論機能の強化などが期待される。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询