이 연구는 위키데이터의 복잡한 분류체계 문제를 해결하기 위해 대규모 언어 모델(LLM)과 그래프 마이닝 기술을 활용한 자동화된 접근법을 제안한다.
먼저 위키데이터 엔티티를 인스턴스와 클래스로 구분하고 메타클래스를 식별한 후 순환 구조를 제거하여 분류 그래프를 구축한다. 이후 LLM을 활용하여 각 링크에 대해 하위클래스, 상위클래스, 동등, 관련 없음, 없음 등의 관계를 예측하고, 이를 바탕으로 링크 제거, 클래스 병합, 링크 재연결 등의 정제 작업을 수행한다.
이를 통해 얻은 정제된 분류체계 WiKC는 기존 위키데이터 분류체계에 비해 복잡도와 중복성이 크게 낮아졌으며, 모든 클래스에 라벨과 설명이 제공된다. 엔티티 타이핑 작업을 통한 외부 평가에서도 WiKC가 위키데이터 분류체계보다 우수한 성능을 보였다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yiwen Peng (... klo arxiv.org 09-09-2024
https://arxiv.org/pdf/2409.04056.pdfSyvällisempiä Kysymyksiä