Core Concepts
大規模言語モデルを活用したオントロジーマッチングの新しい手法LLMs4OMを提案し、その有効性を実証した。
Abstract
本研究では、オントロジーマッチングの課題に対して、大規模言語モデル(LLM)を活用する新しい手法LLMs4OMを提案した。LLMs4OMは、検索モジュールと照合モジュールから成り、オントロジーの概念、親概念、子概念の3つの表現を活用する。
検索モジュールでは、4つの手法(TFIDF、sentence-BERT、SPECTER2、OpenAI text-embedding-ada)を評価し、OpenAI text-embedding-adaが全体的に優れた性能を示した。照合モジュールでは、7つの最新のLLMを評価し、GPT-3.5、Mistral、LLaMA-2が優れた結果を得た。特に、概念表現の選択が重要で、概念単体の表現が最も良い結果を示した。
また、LLMs4OMの性能をOAEI 2023の手法と比較したところ、多くのタスクでLLMs4OMが優れた結果を示した。これは、LLMsの強力な言語理解能力がオントロジーマッチングに有効であることを示している。ただし、バイオメディカルドメインのタスクでは、LLMsの性能が低く、ドメイン固有のモデルの活用が必要であることが分かった。
全体として、本研究はLLMsをオントロジーマッチングに適用する新しい手法を提案し、その有効性を実証したものである。LLMsの急速な発展を踏まえ、オントロジーマッチングの分野でのLLMsの活用可能性を示した意義は大きい。
Stats
LLMs4OMは、OpenAI text-embedding-adaを用いた検索モジュールと、GPT-3.5を用いた照合モジュールで、概念単体の表現を用いた場合に最も高い精度(F1スコア89.11%)を達成した。
LLaMA-2は、概念-子概念の表現を用いた場合に、MI-EMMMOタスクで94.30%のF1スコアを得た。これは、OAEI 2023の手法(Matcha 91.8%)を上回る。
Mistralは、概念-親概念の表現を用いた場合に、DOID-ORDOタスクで89.93%のF1スコアを得た。これは、OAEI 2023の手法(AML 75.5%)を大きく上回る。
Quotes
"大規模言語モデルを活用したオントロジーマッチングの新しい手法LLMs4OMを提案し、その有効性を実証した。"
"LLMsの強力な言語理解能力がオントロジーマッチングに有効であることを示した。"
"LLMsの急速な発展を踏まえ、オントロジーマッチングの分野でのLLMsの活用可能性を示した意義は大きい。"