Core Concepts
사용자 정의 스키마 서브그래프 내에서 랜덤 워크를 수행하여 지식 그래프를 효과적으로 임베딩하는 방법
Abstract
이 논문에서는 Subgraph2vec이라는 새로운 지식 그래프 임베딩 알고리즘을 소개한다. 기존의 랜덤 워크 기반 임베딩 방법들은 특정 노드 유형이나 관계 패턴에 편향된 워크를 수행하지만, Subgraph2vec은 사용자가 정의한 서브그래프 내에서 랜덤 워크를 수행한다.
먼저 사용자가 지식 그래프의 에지 정보를 입력하면 해당 서브그래프가 정의된다. 그 후 서브그래프 내에서 랜덤 워크를 수행하고, 이를 Skip-gram 모델에 입력하여 노드 임베딩을 학습한다.
실험 결과, Subgraph2vec은 기존 방법들에 비해 링크 예측 성능이 우수한 것으로 나타났다. 이는 사용자 정의 서브그래프 내에서 자유롭게 워크를 수행할 수 있어 보다 유의미한 임베딩을 학습할 수 있기 때문이다.
Stats
지식 그래프 G는 123,182개의 고유 개체와 1,084,040개의 고유 에지, 37개의 관계 유형을 가진다.
NELL 데이터셋은 49,869개의 고유 노드, 296,013개의 에지, 827개의 관계 유형을 가진다.
Quotes
"지식 그래프는 다양한 분야에서 정보를 구조화하고 이해하며 활용하는 데 중요한 역할을 한다."
"지식 그래프는 종종 불완전하며, 크기와 복잡성이 증가함에 따라 비효율적이 되어 특별한 인프라와 알고리즘이 필요하다."
"기존 랜덤 워크 기반 임베딩 방법들은 특정 노드 유형이나 관계 패턴에 편향된 워크를 수행하지만, Subgraph2vec은 사용자 정의 서브그래프 내에서 자유롭게 워크를 수행한다."