Core Concepts
大規模言語モデルは医療・生物医学分野の様々なタスクにおいて、ゼロショットや少量学習の場面でも従来のモデルに匹敵する性能を発揮することが示された。ただし、特定の分類やリレーション抽出タスクでは、医療分野に特化したモデルには及ばない。
Abstract
本研究では、4つの最新の命令チューニング済み大規模言語モデル(ChatGPT、Flan-T5 UL2、Tk-Instruct、Alpaca)を、13種類の医療・生物医学分野の実世界タスク(名称抽出、質問応答、リレーション抽出、自然言語推論など)で評価した。
全体の結果から、これらの大規模言語モデルは、特に質問応答タスクで従来モデルを上回る性能を示し、ゼロショットや少量学習の場面でも多くのタスクでほぼ同等の性能を発揮することが分かった。一方で、特定の分類やリレーション抽出タスクでは、医療分野に特化したモデル(PubMedBERT)には及ばない。
また、単一のモデルが全てのタスクで最高の性能を示すわけではなく、タスクによって適切なモデルが異なることも明らかになった。
Stats
大規模言語モデルは質問応答タスクでは従来モデルを上回る性能を示した。
大規模言語モデルはゼロショットや少量学習の場面でも多くのタスクでほぼ同等の性能を発揮した。
特定の分類やリレーション抽出タスクでは、医療分野に特化したモデルには及ばなかった。
単一のモデルが全てのタスクで最高の性能を示すわけではなく、タスクによって適切なモデルが異なった。
Quotes
"大規模言語モデルは医療・生物医学分野の様々なタスクにおいて、ゼロショットや少量学習の場面でも従来のモデルに匹敵する性能を発揮することが示された。"
"ただし、特定の分類やリレーション抽出タスクでは、医療分野に特化したモデルには及ばない。"
"単一のモデルが全てのタスクで最高の性能を示すわけではなく、タスクによって適切なモデルが異なることも明らかになった。"