Temel Kavramlar
대규모 언어 모델과 그래프 마이닝 기술을 결합하여 위키데이터 분류체계의 모호성, 불일치성, 중복성 및 복잡성 문제를 자동으로 해결하고 정제된 분류체계 WiKC를 제공한다.
Özet
이 연구는 위키데이터의 복잡한 분류체계 문제를 해결하기 위해 대규모 언어 모델(LLM)과 그래프 마이닝 기술을 활용한 자동화된 접근법을 제안한다.
먼저 위키데이터 엔티티를 인스턴스와 클래스로 구분하고 메타클래스를 식별한 후 순환 구조를 제거하여 분류 그래프를 구축한다. 이후 LLM을 활용하여 각 링크에 대해 하위클래스, 상위클래스, 동등, 관련 없음, 없음 등의 관계를 예측하고, 이를 바탕으로 링크 제거, 클래스 병합, 링크 재연결 등의 정제 작업을 수행한다.
이를 통해 얻은 정제된 분류체계 WiKC는 기존 위키데이터 분류체계에 비해 복잡도와 중복성이 크게 낮아졌으며, 모든 클래스에 라벨과 설명이 제공된다. 엔티티 타이핑 작업을 통한 외부 평가에서도 WiKC가 위키데이터 분류체계보다 우수한 성능을 보였다.
İstatistikler
위키데이터 분류체계는 약 410만 개의 클래스와 480만 개의 링크로 구성되어 있으며, 최대 깊이가 20단계에 달한다.
WiKC는 약 1.7만 개의 클래스와 2만 개의 링크로 구성되어 있으며, 최대 깊이가 13단계이다.
WiKC는 위키데이터 분류체계에 비해 클래스 수가 약 200배, 평균 경로 길이가 약 10배 더 간단하다.
Alıntılar
"위키데이터는 협업 프로젝트의 특성상 분류체계의 모호성, 불일치성, 중복성 및 복잡성 문제를 겪고 있다."
"수동으로 위키데이터 분류체계를 정제하는 작업은 시간이 많이 소요되고 오류나 주관적 판단에 취약하다."