Core Concepts
大規模言語モデルは材料科学の知識を活用して、材料と物性の関係を抽出することができる。ただし、特定の材料表現の抽出には専門モデルが有効である。
Abstract
本研究は、大規模言語モデル(LLM)の材料科学分野における情報抽出能力を評価することを目的としている。具体的には、(i)材料と物性の名称抽出(NER)と(ii)それらの関係抽出(RE)の2つのタスクを中心に検討を行った。
材料の表現は化学式や商品名など多様な形式をとるため、抽出が困難である。一方、物性は測定値と単位から構成される比較的単純な構造を持つ。
NERタスクの評価では、LLMはベースラインモデルに劣る結果となった。特に材料の抽出では、専門モデルの方が優れた性能を示した。一方、REタスクでは、少数の例示を与えるだけでLLMが優れた推論能力を発揮し、ベースラインを上回る結果が得られた。
これらの結果から、LLMは材料科学の複雑な概念を関連付ける能力を持つが、特定の材料表現の抽出には専門モデルが有効であると考えられる。今後、他の材料科学サブドメインでの検証が必要である。
Stats
材料科学分野の文献には膨大な量の情報が蓄積されているが、データマイニングの活用は限定的である。
材料の表現は化学式、商品名、略語など多様な形式をとり、抽出が困難である。
物性は測定値と単位から構成される比較的単純な構造を持つ。
Quotes
"材料科学分野の文献は、データマイニング技術を用いて十分に活用されていない。"
"材料の表現は化学式、商品名、略語など多様な形式をとり、抽出が困難である。"
"物性は測定値と単位から構成される比較的単純な構造を持つ。"