核心概念
高次元グラフにおける自己教師あり学習では、従来の手法では任意のネガティブサンプルを選択するため、学習バイアスが発生し、計算コストが高くなるという問題がある。本研究では、正規化正準相関分析に基づくノードレベルおよびグループレベルの自己教師あり信号と、階層的メンバーシップ対比学習を提案することで、これらの問題を解決する。
摘要
本研究は、高次元グラフの自己教師あり学習(HSSL)に関する新しい枠組みSE-HSSLを提案している。
まず、ノードのマスキングと高次元グラフのメンバーシップマスキングによる2つの拡張ビューを生成する。次に、共有されたHGNNエンコーダを使ってこれらのビューの表現を学習する。
その上で、以下の3つの新しい自己教師あり信号を提案している:
- ノードレベルのCCA目的関数: ノード表現の一致性を最大化し、次元の退化を防ぐ。ネガティブサンプルを必要としない。
- グループレベルのCCA目的関数: 同一ハイパーエッジ間の一致性を最大化し、グループ情報を保持する。こちらもネガティブサンプルを必要としない。
- 階層的メンバーシップ対比学習: ノードとハイパーエッジのメンバーシップ関係に基づいて、効率的にポジティブとネガティブのペアを生成する。
これらの3つの信号を組み合わせて最適化することで、高次元グラフの表現学習を行う。
実験の結果、提案手法SE-HSSLは、ノード分類やノードクラスタリングの課題において、従来手法を大きく上回る性能を示した。また、学習時間においても2倍以上の高速化を実現した。
統計資料
高次元グラフの頂点数は2,708 ~ 1,231,112、エッジ数は43 ~ 7,963の範囲にある。
頂点の特徴次元数は100 ~ 3,703の範囲にある。
クラス数は3 ~ 67の範囲にある。
引述
"従来の高次元グラフ自己教師あり学習手法は、任意のネガティブサンプルを選択するため、学習バイアスが発生し、計算コストが高くなるという問題がある。"
"提案手法SE-HSSLは、ノードレベルおよびグループレベルのCCA目的関数とともに、階層的メンバーシップ対比学習を導入することで、これらの問題を解決する。"
"実験の結果、SE-HSSLは従来手法を大きく上回る性能を示し、学習時間においても2倍以上の高速化を実現した。"