Concetti Chiave
OAEI-LLMデータセットは、オントロジーマッチングタスクにおける大規模言語モデルの誤認識を評価するためのベンチマークデータセットである。
Sintesi
本論文では、大規模言語モデル(LLM)を用いたオントロジーマッチング(OM)タスクにおける誤認識(hallucination)の問題に取り組むため、OAEI(Ontology Alignment Evaluation Initiative)のデータセットを拡張した新しいデータセット「OAEI-LLM」を提案している。
OAEI-LLMデータセットの構築方法は以下の通り:
- OAEIデータセットから、ソースオントロジー(Os)、ターゲットオントロジー(Ot)、OAEIリファレンス(Roaei)の3つのファイルを取得する。
- LLMベースのOMシステムを使ってLLM-Alignment(Allm)を生成する。
- RoaeiとAllmを比較し、LLMの誤認識を分類する。
- 欠落(Missing): Roaeiにあるが、Allmにない
- 誤り(Incorrect): Roaeiと異なる
- 上位クラスにマッチ(Align-up)
- 下位クラスにマッチ(Align-down)
- 無関係なエンティティにマッチ(False-mapping)
- 争議的なマッチ(Disputed-mapping)
- 拡張されたスキーマを使ってこれらの情報を記録する。
OAEI-LLMデータセットには以下のような利用シナリオが考えられる:
- LLMのOMタスクにおけるベンチマーキング
- LLMのファインチューニングのためのデータセット
Statistiche
LLMがOMタスクで生成した誤認識の例:
"http://cmt#Paper"と"http://confOf#Paper"をマッチさせてしまった
"http://cmt#Chairman"と"http://conference#Chair"をマッチさせられなかった