핵심 개념
지식 그래프 임베딩 모델은 지식 그래프의 데이터 희소성, 계산 복잡성, 수동 특징 엔지니어링 문제를 해결하기 위해 개발되었다. 이 모델들은 개체와 관계를 저차원 벡터 공간에 표현하여 의미적 관계를 포착한다. 이러한 임베딩은 다양한 자연어 처리 및 데이터 마이닝 작업에 활용될 수 있다.
초록
이 논문은 지식 그래프 표현과 관련된 기본 개념을 소개하고, 지식 그래프 임베딩 모델에 대해 자세히 설명한다. 특히 번역 기반 모델과 신경망 기반 모델의 차이점을 다룬다.
지식 그래프는 실세계 개체와 개체 간 관계를 표현하는 그래프 기반 데이터 구조이다. 지식 그래프는 데이터 희소성, 계산 복잡성, 수동 특징 엔지니어링 등의 문제가 있다. 지식 그래프 임베딩은 이러한 문제를 해결하기 위해 개체와 관계를 저차원 벡터 공간에 표현한다.
번역 기반 모델은 관계를 연결 벡터로 간주하고, 관계와 개체 간 거리를 최소화하는 방식으로 임베딩을 학습한다. 대표적인 모델로는 TransE, TransR, DistMult, ComplEx 등이 있다. 이 모델들은 대칭, 비대칭, 역관계 등 다양한 관계 유형을 모델링할 수 있다.
신경망 기반 모델은 다양한 신경망 아키텍처를 활용하여 지식 그래프 임베딩을 학습한다. SME, MLP, NTN, NAM, ConvKB 등이 대표적이다. 이 모델들은 관계 예측, 삼중체 분류, 개체 분류 등 다양한 지식 그래프 관련 작업에 활용될 수 있다.
지식 그래프 임베딩은 가짜 뉴스 탐지, 약물 관련 응용, 자살 충동 탐지, 소셜 미디어 데이터를 활용한 지식 그래프 보완 등 다양한 분야에 적용되고 있다. 향후 연구 방향으로는 프로파간다 탐지, 소셜 미디어 상의 허위 정보 확산자 탐지 등이 있다.
통계
지식 그래프는 대규모 데이터베이스로, Freebase는 5,872만 개의 주제와 31억 9,765만 개의 사실을 포함하고 있다.
DBpedia는 125개 언어로 된 라벨과 초록을 가지고 있는 다국어 지식 그래프이다.
Wikidata는 항목을 나타내는 고유 번호와 속성-값 쌍으로 구성된 문서 지향 데이터베이스이다.
인용구
"Knowledge Graph (KG) is a graph based data structure to represent facts of the world where nodes represent real world entities or abstract concept and edges represent relation between the entities."
"Knowledge graph embedding tackles the drawback by representing entities and relation in low dimensional vector space by capturing the semantic relation between them."
"The embedding procedure can be described as follows. First entities and relations in a given KG are assigned random values of dimension d. An evaluation function, also called scoring function, is determined to measure the plausibility of triplets."