Core Concepts
大規模言語モデルは、人間の専門家が手動で作成した研究比較プロパティと比較して、研究ディメンションを自動的に提案する可能性がある。
Abstract
本研究は、大規模言語モデル(LLM)の研究ディメンション推奨タスクにおける性能を包括的に評価しています。
- 研究目的:LLMが研究ディメンションを推奨する際の性能を評価すること
- 方法:
- オープン研究ナレッジグラフ(ORKG)から収集した人間専門家が手動で作成した研究プロパティを基準とする
- GPT-3.5、Llama 2、Mistralの3つのLLMを使用して研究ディメンションを自動生成
- 以下の4つの観点から評価を行う:
- ORKGプロパティとLLM生成ディメンションの意味的整合性と偏差
- 細かなプロパティとディメンションのマッピング精度
- SciNCLエンベディングに基づくコサイン類似度
- 人間専門家によるORKGプロパティとLLM出力の比較
- 結果:
- LLMは研究ディメンション推奨の可能性を示したが、人間専門家の注釈とのギャップがある
- LLMは研究プロパティとディメンションの意味的関係を捉えることができる
- 人間専門家は、LLM出力を構造化された貢献を作成する際の提案として有用と考えている
- 結論:
LLMは構造化された科学要約の作成に役立つ可能性があるが、ドメイン固有のファインチューニングが必要
Stats
ORKGには1,317本の論文が含まれ、35の研究分野にまたがる
GPT-3.5は、ORKGプロパティとの意味的整合性を3.9/5、偏差を4.1/5と評価した
GPT-3.5は、ORKGプロパティとLLM生成ディメンションの間で平均0.33のマッピングを示した
GPT-3.5、Llama 2、MistralのディメンションとORKGプロパティのコサイン類似度は、それぞれ0.84、0.79、0.76であった
Quotes
"LLMが生成したディメンションは、構造化された貢献を作成する際の提案として有用であると考えられる。"
"ディメンションの特定性とリサーチゴールとの整合性に懸念があり、さらなる改善が必要である。"