Основні поняття
グラフデータの不完全性と雑音を同時に解決するため、情報ボトルネックの原理に基づいた新しいデータ拡張手法COREを提案する。COREは、欠落したエッジを回復しつつ、グラフ構造から不要な情報を削除することで、リンク予測モデルの頑健性と性能を向上させる。
Анотація
本論文は、グラフ表現学習におけるリンク予測タスクに対して、新しいデータ拡張手法COREを提案している。
COREは2つのステージから構成される:
- Complete Stage:
- 欠落したエッジを回復するために、高い確率のエッジを元のグラフに追加する。
- 任意のリンク予測手法を使ってエッジの確率を計算し、上位のエッジを追加する。
- Reduce Stage:
- 情報ボトルネックの原理に基づき、予測に必要な最小限のグラフ構造を学習する。
- グラフ畳み込みニューラルネットワークを用いて、ノード表現を学習し、エッジの重要度を計算する。
- エッジの重要度に基づいて確率的にエッジをサンプリングし、プルーニングされたグラフを生成する。
実験の結果、COREはベースラインと比べてリンク予測の性能を大幅に向上させることができ、ノイズに対する頑健性も高いことが示された。また、COREで生成したグラフ構造は、単純なヒューリスティック手法の性能も向上させることができる。
さらに、COREはターゲットのリンクごとに異なるデータ拡張を行うことで、より効果的な拡張が可能となることが明らかになった。
Статистика
元のグラフに追加されたエッジの数は、ノード数の2乗に比例する。
情報ボトルネックの制約パラメータ𝛽を0にすると、性能が大幅に低下する。
ランダムサンプリングを行わずに、エッジの重要度を直接使うと性能が低下する。
Цитати
"グラフデータの収集は、不完全な情報、ラベリングのエラー、測定デバイスやヒューマンエラーによるノイズなどの要因により困難になることがある。その結果、収集されたデータに基づいて構築されたグラフには、欠落したエッジや誤ったエッジが含まれる可能性がある。"
"データ拡張は、元のデータインスタンスを少しずつ変形したり、合理的な変形バージョンを作成したりすることで、トレーニングデータセットを人工的に拡張する手法である。"
"グラフ内のリンクは相互依存しているため、特定のリンクに対してデータ拡張を適用すると、近接するリンクの環境にも影響を及ぼす。このため、リンクごとに最適な拡張を行うことが重要となる。"