核心概念
科学文献分析におけるLLMの能力を評価するためのSciAssessベンチマークは、GPT-4、GPT-3.5-turbo、およびGeminiなどの主要なLLMを評価し、その強みと改善すべき点を明らかにしています。
要約
最近の大規模言語モデル(LLMs)の革新的な能力に焦点を当てたSciAssessベンチマークが紹介されました。このベンチマークは、科学文献分析におけるLLMsの効果を徹底的に評価することを目的としています。既存のベンチマークが科学領域でのLLMsの能力を十分に評価できていないことから生まれたSciAssessは、GPT-4、GPT-3.5-turbo、Geminiなどの主要なLLMsを評価し、それらの強みや改善点を特定しています。さまざまな科学領域でこれらのモデルのパフォーマンスを比較し、多様なタスクにおける彼らの能力を明らかにしています。
統計
GPT-4は「MMLU High-School Chemistry」タスクで0.591(1位)の精度率を達成しました。
GPT-3.5は「Polymer Property Extraction」タスクで0.286(3位)という値再現率を示しました。
Geminiは「Electrolyte Table QA」タスクで0.233(1位)という精度率を達成しました。