核心概念
一クラス分類器を適切に訓練することで、尤度検定と同等の動作を実現できる。
要約
本論文では、観測データが2つの確率密度関数(PDF)のいずれかから生成されたかを判断する問題を扱っている。一方のPDFは既知であるが、もう一方のPDFは完全に未知であるという状況を想定している。このような状況は、例えばセキュリティ分野の攻撃者の行動が完全に未知である場合などに生じる。
著者らは、一クラス分類器(OCC)を用いて尤度検定(LT)と同等の動作を実現する手法を提案している。具体的には、ニューラルネットワーク(NN)と最小二乗サポートベクターマシン(LS-SVM)を、人工的に生成したデータセットを用いて2クラス分類器として訓練することで、LTと等価な動作を得ることができることを示している。また、SGD アルゴリズムを改良することで、人工データセットを必要とせずにLTと等価なOCCを得られることも示している。さらに、LS-SVMにも適切なカーネルを用いれば、収束時にLTと等価になることを証明している。一方で、一般的に用いられるオートエンコーダ(AE)分類器はLTと等価にはならないことも示している。
提案手法の性能は、ガウス分布、ガウス混合分布、有限入力空間データセットを用いた数値実験により検証されている。その結果、LTベースの分類器はLTと同等の性能を示すことが確認された。一方、AE分類器はLTと等価にはならず、提案手法よりも劣る性能を示すことが明らかになった。
統計
ガウス分布シナリオにおいて、正クラスのサンプルベクトルの各要素は平均0、分散1のガウス分布に従う。一方、負クラスのサンプルベクトルの各要素は平均3、分散1のガウス分布に従う。
ガウス混合分布シナリオにおいて、正クラスのサンプルベクトルは3成分のガウス混合分布に従い、各成分の平均は[-1.5, -0.5, 3]、混合比は[0.2, 0.4, 0.4]である。一方、負クラスのサンプルベクトルは2成分のガウス混合分布に従い、各成分の平均は[6, 9]、混合比は[0.5, 0.5]である。