核心概念
知識グラフ(KG)は、実世界のエンティティや概念を表すノードと、それらの関係を表すエッジから構成される。KGの表現力の高さと柔軟性は多くのアプリケーションで活用されているが、データの疎さや計算の複雑さ、手動の特徴量エンジニアリングなどの課題がある。知識グラフ埋め込みは、エンティティと関係を低次元のベクトル空間に表現することで、これらの課題に取り組む。本稿では、翻訳ベースおよびニューラルネットワークベースの知識グラフ埋め込みモデルを概説し、さらにそれらの応用例について議論する。
要約
本稿では、知識グラフ(KG)の表現と課題、そして知識グラフ埋め込みモデルについて概説する。
KGは、実世界のエンティティや概念をノードとし、それらの関係をエッジで表現したグラフ構造のデータモデルである。RDF、プロパティグラフ、Wikidataモデルなど、様々な表現形式が存在する。大規模KGとしては、Freebase、DBpedia、Wikidataなどが広く利用されている。
KGは柔軟な表現力と拡張性を持つが、データの疎さ、計算の複雑さ、手動の特徴量エンジニアリングなどの課題がある。知識グラフ埋め込みは、これらの課題に取り組むアプローチで、エンティティと関係を低次元のベクトル空間に表現する。
知識グラフ埋め込みモデルには、翻訳ベースモデルとニューラルネットワークベースモデルがある。
翻訳ベースモデルは、Word2vecに着想を得て、エンティティと関係を低次元ベクトルで表現し、関係を「翻訳」として捉える。代表的なモデルにTransE、TransR、DistMultなどがある。これらは対称関係や1対多関係などを捉えられるが、複合関係は表現できない。
ニューラルネットワークベースモデルは、深層学習を用いて知識グラフの表現を学習する。SME、MLP、NTN、NAM、ConvKBなどがある。これらは複雑な関係も捉えられるが、パラメータ数が多く、解釈性が低い。
知識グラフ埋め込みは、ファクトチェック、薬物関連アプリケーション、自殺予防、KG補完など、様々な応用分野で活用されている。特に、ソーシャルメディアデータとの統合が注目されている。
統計
知識グラフには58,726,427個のトピックと3,197,653,841個の事実が含まれている。
引用
"Knowledge Graph (KG) is a graph based data structure to represent facts of the world where nodes represent real world entities or abstract concept and edges represent relation between the entities."
"Graphs as a data model for knowledge, provide a flexible schema to extend growing nature of data as well as allow to use graph algorithms to query, summarise, reason about the semantics of the terms and gain insight about the domain being described by the graph."