核心概念
実際のデータを使わずに人工的に生成したデータセットを用いて、マルチクラス分類器を構築し、システムの障害を予測する手法を提案する。
要約
本論文では、実際のデータを使わずに人工的に生成したデータセットを用いて、マルチクラス分類器を構築し、システムの障害を予測する手法を提案している。
まず、開発者から提供される情報(テキストからイベントへのマッピング、各障害に対応するイベントの系列、各障害の優先度)を利用して、バイナリ値で表現された入力特徴量を生成する。次に、遺伝的アルゴリズムのステップ、パターンの繰り返し、ランダムサンプリングなどを適用して、人工的に生成したデータセットを用いてニューラルネットワークベースのマルチクラス分類器を訓練する。この際、実際のデータは一切使用せず、プライバシーを保護する。
分類器の出力は、各障害の発生確率を表すソフトマックス層の出力ベクトルである。さらに、AHPを用いて各障害の重要度を算出し、ソフトマックス出力と重要度の積を最大化することで、ビジネスニーズに合った障害の優先順位付けを行う。
結果として、提案手法は高い精度で障害を予測でき、かつデータプライバシーを保護できることが示された。また、この手法は障害予測以外の分類問題にも応用可能であり、クラシフィケーションサービスとして提供できる。
統計
障害F1が発生するためには、E1=1、E2=1、E5=1、E6=1の条件が満たされる必要がある。
障害F2が発生するためには、E3=1、E4=1、E5=1、E6=1の条件が満たされる必要がある。
障害F3が発生するためには、E1=1、E2=1、E3=1、E4=1、E5=1、E6=1、E8=1の条件が満たされる必要がある。
引用
"実際のデータを使わずに人工的に生成したデータセットを用いて、マルチクラス分類器を構築し、システムの障害を予測する手法を提案する。"
"この手法は障害予測以外の分類問題にも応用可能であり、クラシフィケーションサービスとして提供できる。"