Khái niệm cốt lõi
最新の大規模言語モデル o1 は、医療分野における理解力、推論力、多言語対応力において従来のモデルを大きく上回り、医療 AI 医師への道が近づいている。
Tóm tắt
本研究は、医療分野における最新の大規模言語モデル o1 の性能を包括的に評価したものである。具体的には以下の3つの側面から評価を行った:
理解力:
- 医療概念の認識: o1 はGPT-4や GPT-3.5 に比べて平均7.6%および26.6%高い F1 スコアを達成した。特に、広く使われる BC4Chem データセットでは24.5%の大幅な改善を示した。
- 医療テキストの要約: o1 はGPT-4に比べて平均2.4%、GPT-3.5に比べて3.7%高いROUGE-1スコアを得た。
推論力:
- 医療知識問題回答: o1 は新たに構築した難易度の高いLancetQAとNEJMQAデータセットで、GPT-4に対して平均8.9%、GPT-3.5に対して27.1%高い正答率を示した。
- 医療診断支援: o1 はGPT-4に比べて15.5%、GPT-3.5に比べて10%高い正答率を達成した。
- 医療計算: o1 はGPT-4を9.4%上回る正答率を示した。
多言語対応力:
- 多言語医療問題回答: o1 は平均85.2%の正答率を示し、GPT-4の75.7%、GPT-3.5の54.1%を大きく上回った。
- 複雑な中国語エージェントタスクでは、o1 がGPT-4に1.6%劣る結果となった。
以上の結果から、o1 は医療分野における理解力、推論力、多言語対応力において大幅な進歩を遂げており、医療 AI 医師への道が近づいていることが示された。一方で、依然として幻覚の問題や複雑な多言語タスクでの弱点も確認された。今後の課題として、より信頼性の高い評価指標の開発や、効果的な教示手法の検討が重要であると考えられる。
Thống kê
o1 は、GPT-4に比べて平均6.2%、GPT-3.5に比べて6.6%高い正答率を示した。
o1 の推論タスクでの平均正答率は70.5%で、GPT-4の67.3%、GPT-3.5の50.2%を上回った。
o1 の多言語医療問題回答タスクでの平均正答率は85.2%で、GPT-4の75.7%、GPT-3.5の54.1%を大きく上回った。
o1 の医療計算タスクでの正答率は34.9%で、GPT-4の25.5%を9.4%上回った。
Trích dẫn
"o1 は、GPT-4に比べて平均6.2%、GPT-3.5に比べて6.6%高い正答率を示した。"
"o1 の推論タスクでの平均正答率は70.5%で、GPT-4の67.3%、GPT-3.5の50.2%を上回った。"
"o1 の多言語医療問題回答タスクでの平均正答率は85.2%で、GPT-4の75.7%、GPT-3.5の54.1%を大きく上回った。"