Core Concepts
リアルタイムデータストリームから新しい関係タイプを継続的に発見し、ナレッジグラフの完全性を向上させる手法の開発
Abstract
本論文は、リアルタイムデータストリームから新しい関係タイプを継続的に発見し、ナレッジグラフの完全性を向上させる手法の開発を目的としている。
主な内容は以下の通り:
序論
非構造化データを構造化したナレッジグラフを作成する際の課題として、関係抽出の精度が低いことが挙げられる。
既存の関係抽出手法は固定データセットで学習・評価されており、リアルタイムデータストリームから新しい関係タイプを発見することが困難である。
そのため、ナレッジグラフの不完全性が生じる問題がある。
研究課題
研究課題1: リアルタイムデータストリームから新しい関係タイプを継続的に発見する方法
研究課題2: リアルタイムデータストリームにおけるナレッジグラフの不完全性を解決する方法
研究課題3: 弱教師あり学習における意味的ドリフトの問題を、ナレッジグラフやオントロジーの埋め込みを用いた規則学習で解決する方法
研究課題4: 機械学習ベースの関係抽出結果を説明可能で解釈可能にする方法
研究手法
弱教師あり学習に基づく継続学習型の関係抽出手法を提案
新しい関係タイプの継続的な発見と、ナレッジグラフの不完全性解決を目指す
規則学習とナレッジグラフ/オントロジーの埋め込みを組み合わせ、意味的ドリフトの問題に対処する
関係抽出結果の説明可能性と解釈可能性を向上させる
評価
精度、再現率、F1スコア、PR曲線などの指標で関係抽出の性能を評価
継続学習の観点から、平均正解率、全体正解率、忘却度、学習曲線面積、誤差境界などの指標も評価
Stats
非構造化データをナレッジグラフに変換する際、関係抽出の精度が低いという課題がある。
既存の関係抽出手法は固定データセットで学習・評価されており、リアルタイムデータストリームから新しい関係タイプを発見することが困難である。
そのため、ナレッジグラフの不完全性が生じる問題がある。
Quotes
"To analyze and interpret unstructured text data, it must be represented in a structured form. One way of representing unstructured data in the structured form is the use of knowledge graphs (KGs)."
"The main problem with these approaches is that it could not be feasible to detect relations between entities throughout a data stream coming from the real world since they run once as offline on the fixed data set."
"Because of this reason, they might not keep and transfer knowledge learned from previous tasks to further tasks."