本研究では、ウィキデータの分類体系を自動的に改善するアプローチ「WiKC」を提案している。ウィキデータの分類体系は、協働的な性質ゆえに、インスタンスとクラスの区別の曖昧さ、一部の分類パスの不正確さ、サイクルの存在、クラス間の高い冗長性などの問題を抱えている。
WiKCでは、大規模言語モデル(LLM)とグラフマイニング手法を組み合わせて、分類体系の改善を行う。具体的には、LLMを用いてゼロショット・プロンプティングを行い、各リンクについて「サブクラス」、「スーパークラス」、「等価」、「関連なし」、「なし」のいずれかの関係を予測する。この予測結果に基づいて、リンクの切断、クラスの統合、リンクの維持などの操作を行う。
この改善プロセスを経て得られたWiKCは、元のウィキデータ分類体系と比較して、クラス数が4.1Mから17Kに大幅に削減され、サイクルやトランジティブリンクが解消されている。また、全てのクラスにラベルと説明が付与されており、分類体系の複雑性と冗長性が大幅に改善されている。
さらに、WiKCを用いたエンティティタイピングの精度評価を行った結果、ウィキデータ分類体系を用いる場合と比べて、特に深層部分(深さ10以上)での精度が大幅に向上していることが示された。これは、WiKCが下位レベルの不整合性の問題を解決できていることを示唆している。
今後の課題としては、他のオープンソースLLMを用いた分類体系の改善や、改善された分類体系の信頼性検証、ウィキデータコミュニティとの協働による実用性の検討などが考えられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yiwen Peng (... at arxiv.org 09-09-2024
https://arxiv.org/pdf/2409.04056.pdfDeeper Inquiries